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献 词 


致 约瑟夫 与 米 洛 。 


详 痢 序 


这 是 我 翻译 的 第 三 本 书 了 ， 前 两 本 分 别 是 《信息 检索 导论 》 和 《大 数 
据 : 大 规模 互联 网 数据 挖掘 与 分 布 式 处 理 》。 与 图 灵 公 司 有 了 这 两 次 合 
作 后 ， 我 们 一 直 保 持 着 十 分 密切 的 联系 。2012 年 11 月 ， 图 元 的 编辑 和 我 
说 ， 这 本 书 的 原 译 者 不 能 继续 翻译 了 ， 问 我 能 否 续 译 后 面 的 十 二 草 。 我 
翻阅 了 一 下 ， 和 觉得 这 本 书 不 错 ， 能 帮助 不 少 人 ， 于 是 很 快 束 接 下 了 这 个 
翻译 任务 ， 并 在 11 月 确 月 动 了 我 的 第 三 次 图 元 翻译 之 旅 。 


我 翻译 的 这 三 本 书 分 别 涉 及 信息 检索 、 数 据 挖 掘 和 机 器 学 习 。 虽 然 这 几 
个 领域 各 不 相同 ， 但 是 它们 之 间 有 着 十 分 密切 的 关联 。 简 单 地 说 ， 机 器 
学 习 算 法 在 包含 信息 检索 和 数据 挖掘 在 内 的 多 个 领域 中 都 有 着 十 分 广泛 
的 应 用 。 现 代 互 联网 中 的 搜索 引擎 、 社 交 网 络 、 推 荐 引擎 、 计 算 广 告 、 
电子 商务 等 应 用 中 ， 都 包含 大 量 的 机 器 学 习 算 法 。 “机 器 学 习 ” 已 经 成 为 
学 术 界 和 工业 界 和 炙手可热 的 术语 。 了 解 机 器 学 习 算法 ， 是 很 多 研究 人 员 
和 互联 网 从 业 人 员 的 基本 要 求 。 


翻译 本 书 期 间 ， 业 界 和 研究 界 也 出 现 了 大 量 热点 名 词 ， 包 括 “ 大 数 

据 ”(big data) 、“ 深 度 学 习 ”(deep learning) 、“ 知 识 图 
谱 ”(knowledge graph) 等 ， 基 于 社交 网 络 的 研究 和 应 用 也 层出不穷 。 
可 以 说 ， 机 器 学 习 与 这 些 名 词 之 间 都 具有 十 分 密切 的 联系 ， 了 解 机 器 学 
习 对 于 把 握 业 界 和 研究 界 的 脉搏 至 关 重 要 。 


本 书 没有 从 理论 角度 来 揭示 机 器 学 习 算法 背后 的 数学 原理 ， 而 是 通 

过 “原理 简 述 + 问题 实例 + 实际 代码 + 运行 效果 ”来 介绍 每 一 个 算法 。 学 习 
计算 机 的 人 都 知道 ， 计 算 机 是 一 门 实践 学 科 ， 没 有 真正 实现 运行 ， 很 难 
真正 理解 算法 的 精 散 。 这 本 书 的 最 大 好 处 就 是 边 学 边 用 ， 非 常 适合 于 急 
需 迈 进 机 器 学 习 领 域 的 人 员 学 习 。 实 际 上 ， 即 使 对 于 那些 对 机 器 学 习 有 
所 了 解 的 人 来 说 ， 通 过 代 但 实现 也 能 进一步 加 深 对 机 器 学 习 算法 的 理 

下。 


本 书 的 代码 采用 Python 语言 编写 。Python 代 码 简单 优雅 、 易 于 上 手 ， 科 
学 计算 软件 包 众多 ， 已 经 成 为 不 少 大 学 和 研究 机 构 进行 计算 机 教学 和 科 
学 计算 的 语言 。 相 信 Python 编 写 的 机 器 学 习 代码 也 能 让 读者 尽快 领略 到 
这 门 学 科 的 精妙 之 处 。 
































由 于 个 人 精力 有 限 ， 加 上 时 间 紧 迫 ， 和 前 两 本 书 都 是 独立 翻译 有 所 不 
同 ， 本 书 邀 请 了 多 名 颇具 实力 的 译 者 共同 完成 。 全 书 共 包括 15 章 4 个 附 
录 ， 曲 亚 东 翻译 第 1 一 3 章 ， 李 鹏 博士 翻译 第 4、10、11、12 章 及 附录 
A、B， 李 锐 博 士 翻译 第 5、8、9、15 章 及 附录 C、D， 王 试 翻译 第 6、 
7、13、14 章 及 其 他 部 分 并 审 校 全 文 。 


感谢 翻译 过 程 中 图 灵 公 司 谢 工 、 傅 志 红 、 李 奢 、 郭 志 敏 、 刘 紫 凤 等 人 给 
予 的 帮助 ， 感 谢 所 有 译 者 的 家 人 朋友 一 如 既往 的 支持 和 发 励 ， 感 谢 所 有 
帮助 和 指导 过 我 们 的 人 。 

由 于 译 者 水 平 有 限 ， 书 中 难免 会 有 下 漏 ， 还 望 读者 不 音 提 出 意见 和 建 
议 。 同 前 几 本 书 一 样 ， 本 书 的 勘误 也 会 在 网 上 及 时 公布 ， 地 址 在 : 
http://ir.ict.ac.cn/~wangbin/mli-book。 读 者 可 以 通过 邮件 
wbxjj2008@gmail.com 或 者 新 浪 微 博 和 我 联系 。 

王 斌 


2013 年 1 月 15 日 凌晨 于 中 关 村 
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采 言 


大 学 毕业 后 ， 我 先后 在 加 利 福 尼 亚 和 中 国 大 陆 的 Intel 公 司 工作 。 最 初 ， 
我 打算 工作 两 年 乙 后 回 学 校 读 研 究 生 ， 但 是 幸福 时 光 飞 逝 而 过 ， 转 眼 就 
过 去 了 六 年 。 那 时 ， 我 意识 到 我 必须 回 到 校园 。 我 不 想 上 夜校 或 进行 在 
线 学 习 ， 我 就 想 坐 在 大 学 校园 里 吸纳 学 校 传授 的 所 有 知识 。 在 大 学 里 ， 
最 好 的 方面 不 是 你 研修 的 读 程 或 从 事 的 研究 ， 而 是 一 些 外 围 活动 : 与 人 
会 面 、 参 加 研讨 会 、 加 入 组 织 、 劳 听 谍 程 ， 以 及 学 习 未 知 的 知识 。 


在 2008 年 ， 我 帮助 筹备 一 个 招聘 会 。 我 同一 个 大 型 金融 机 构 的 人 交谈 ， 
他 们 和 硕 望 我 去 应 聘 他 们 机 构 的 一 个 对 信用 建 模 〈 判 断 某 人 是 否 会 偿还 贷 
球 〉 的 岗位 。 他 们 问 我 对 随机 分 析 了 解 多 少 ， 那 时 ， 我 并 不 能 确定 “ 随 
机 ”一 词 的 意思 。 他 们 提出 的 工作 地 点 令 我 无 法 接受 ， 所 以 我 决定 不 再 
考虑 了 。 但 是 ， 他 们 说 的 “随机 ”让 我 很 感 兴趣 ， 于 是 我 拿 来 课程 目录 ， 
寻找 合 有 “随机 ”字样 的 课程 ， 我 看 到 了 “离散 随机 系统 ">。 我 没有 注册 区 
直接 劳 听 了 这 门 读 ， 完 成 读 后 作 业 ， 参 加 考试 ， 最 终 和 被 授课 教授 发 现 。 
但 是 她 很 仁慈 ， 让 我 继续 学 习 ， 这 让 我 非常 感激 。 上 这 门 课 ， 是 我 第 一 
次 看 到 将 概率 应 用 到 算法 中 。 在 这 之 前 ， 我 见 过 一 些 算 法 将 平均 值 作为 
外 部 输入 ， 但 这 次 不 同 ， 方 差 和 均值 部 是 这 些 算法 中 的 内 部 值 。 这 门 诬 
主要 讨论 时 间 序 列 数 据 ， 其 中 每 一 段 数据 都 是 一 个 均匀 隔 样本 。 我 还 找 
到 了 名 称 中 包含 “机 露 学习” 的 另 一 门 课程 。 该 课程 中 的 数据 并 不 假设 满 
中 时间 的 均匀 间隔 分 布 ， 它 包含 更 多 的 算法 ， 但 严 诊 性 有 所 降低 。 表 后 
来 我 意识 到 ， 在 经 济 系 、 电 子 工程 系 和 计算 机 科学 系 的 读 程 中 都 会 讲授 
类 似 的 算法 。 


2009 年 初 ， 我 顺利 毕业 ， 并 在 硅谷 谋 得 了 一 份 软件 咨询 的 工作 。 接 下 来 
的 两 年 ， 我 先后 在 涉及 不 同 技术 的 八 家 公司 工作 ， 发 现 了 最 终 构 成 这 本 
书 主题 的 两 种 趋势 : 第 一 ， 为 了 开发 出 苋 争 力 强 的 应 用 ， 不 能 仅仅 连接 
数据 源 ， 而 需要 做 更 多 事情 ; 第 二 ， 用 人 单位 希望 员工 既 懂 理 论 也 能 组 
程 。 程 序 员 的 大 部 分 工作 可 以 类 比 于 连接 管道 ， 所 不 同 的 是 ， 程 序 员 连 
接 的 是 数据 流 ， 这 也 为 人 们 带 了 巨大 的 财富 。 举 一 个 例子 ， 我 们 要 开发 
一 个 在 线 出 售 商 品 的 应 用 ， 其 中 主要 部 分 是 允许 用 户 来 及 布 商品 并 浏览 
其 他 人 发 布 的 商品 。 为 此 ， 我 们 需要 建立 一 个 Web 表单 ， 人 允许 用 户 和 输入 
所 售 商品 的 信息 ， 然 后 将 该 信息 传 到 一 个 数据 存储 区 。 要 让 用 户 看 到 其 
他 用 户 所 售 商品 的 信息 ， 就 要 从 数据 存储 区 获取 这 些 数据 并 适当 地 显示 
出 来 。 我 可 以 确信 ， 人 们 会 通过 这 种 方式 挣 钱 ， 但 是 如 果 让 要 应 用 更 


























好 ， 需 要 加 入 一 些 乔 能 因 系 。 这 些 镶 能 因素 包括 目 动 删除 不 适当 的 发 布 
信息 、 检 测 不 正当 交易 、 给 出 用 户 可 能 襄 欢 的 商品 以 及 预测 网 站 的 流量 
等 。 为 了 实现 这 些 目 标 ， 我 们 需要 应 用 机 器 学 习 方 法 。 对 于 最 终 用 户 而 
言 ， 他 们 并 不 了 解 莫 后 的 “魔法 ”， 他 们 关心 的 是 应 用 能 有 效 运行 ， 这 也 
是 好 产品 的 标志 。 
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这 个 伟大 的 地 方 ， 我 和 我 爱人 在 这 里 工作 、 


人 
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本 书 讲述 重要 的 机 器 学 习 算 法 ， 并 介绍 那些 使 用 这 些 算法 的 应 用 和 工 
具 ， 以 及 如 何在 实际 环境 中 使 用 它们 。 市 面 上 已 经 出 版 了 很 多 关于 机 器 
学 习 的 书籍 ， 大 多 数 讨论 的 是 其 背后 的 数学 理论 ， 很 少 涉及 如 何 使 用 编 
程 语言 实现 机 器 学 习 算 法 。 本 书 恰恰 相反 ， 更 多 地 讨论 如 何 编码 实现 机 
器 学 习 算法 ， 而 尽量 减少 讨论 数学 理论 。 如 何 将 数学 矩阵 描述 的 机 器 学 
习 算 法 转化 为 可 以 实际 工作 的 应 用 程序 ， 是 本 书 的 主要 目的 。 


读者 对 象 


机 器 学 习 是 什么 ? 谁 需要 使 用 机 器 学 习 算法 ? 简 而 言 之 ， 机 器 学 习 可 以 
揭示 数据 背后 的 真实 含义 。 这 本 书 适 合 有 数据 需要 处 理 的 读者 ， 也 适合 
于 想 要 获得 并 理解 数据 的 读者 。 如 果 读 者 有 一 些 编程 概念 (比如 递 

归 ) ， 并 且 了 解 一 些 数 据 结 构 ( 比 如 树 结 构 ) ， 那 么 将 有 助 于 本 书 的 阅 
读 。 即 使 不 具备 线性 代数 和 概率 论 的 知识 ， 也 能 从 本 书 获 益 ， 但 是 如 果 
读者 具有 线性 代数 和 概率 论 的 入 门 知 识 ， 那 么 也 会 利于 本 书 的 阅读 。 此 
外 ， 本 书 使 用 Python 语言 进行 编程 ， 它 过 去 也 被 称 作 “可 执行 的 伪 代 
码 ”。 本 书 假定 读者 有 一 些 基 本 的 Python 编程 知识 ， 不 过 不 知道 如 何 使 
用 Python 也 没有 关系 ， 只 要 具备 基本 的 编程 思想 ， 学 习 Python 也 不 困 
5 

















数据 挖掘 十 大 算法 


数据 以 及 基于 数据 做 出 决策 是 非常 重要 的 ， 本 书 内 容 也 是 来 源 于 数据 
一 一 “数据 挖 气 十 大 算法 ”是 IEEE 数 据 挖 掘 国际 会 议 (ICDM) 上 的 一 篇 
论文 ，2007 年 12 月 在 Journal of Knowledge andInformation Systems 杂 志 上 
发 表 。 依 据 知识 发 现 和 数据 挖掘 国际 会 议 〈KDD) 获奖 者 的 问卷 调查 结 
末 ， 论 文 统计 出 排名 前 十 的 数据 挖掘 算法 。 本 书 的 基本 框架 与 论文 中 提 
到 的 算法 基本 一 致 。 聪 明 的 读者 可 能 已 经 注意 到 ， 昌 然 论文 只 给 出 了 十 
个 重要 的 数据 挖掘 算法 ， 但 本 书 却 有 十 五 草 。 下 面 我 会 给 出 解释 ， 这 里 
我 们 先 看 看 排名 前 十 的 数据 挖掘 算法 。 


论文 选 出 的 机 器 学 习 算 法 包括 : C4.5 决 策 树 、K- 均 值 (K-mean) 、 支 持 
器 量 机 (SYM) 、Apriori、 最 大 期 望 算 法 (EM) 、PageRank 算 法 、 
AdaBoost 算 法 、k- 近 邻 算法 (kNN) 、 朴 素 贝 叶 斯 算法 (NB) 和 分 类 回 
归 树 (CART) 算法 。 本 书包 含 了 其 中 的 8 个 算法 ， 没 有 包括 最 大 期 望 算 
法 和 PageRank 算 法 。 本 书 没有 包括 PageRank 算 法 ， 是 因为 搜索 引擎 巨头 
Google 引 入 的 PageRank 算 法 已 经 在 很 多 著作 里 得 到 了 充分 的 论述 ， 没 有 
必要 进一步 累 述 ， 而 最 大 期 望 算 法 没有 纳入 ， 是 因为 涉及 太 多 的 数学 知 
识 ， 如 果 它 像 其 他 算法 那样 简化 成 一 章 ， 束 无 法 讲述 清楚 算法 的 核心 ， 
有 兴趣 的 读者 可 以 参阅 相关 材料 。 

















本 书 结 构 
本 书 由 四 大 部 分 15 章 和 4 个 附录 组 成 。 
第 一 部 分 分 类 


本 书 并 没有 按照 “数据 挖掘 十 大 算法 ”的 次 序 来 介绍 机 需 学 习 算法 。 第 一 
部 分 首先 介绍 了 机 器 学 习 的 基础 知识 ， 然 后 讨论 如 何 使 用 机 需 学 习 算 法 
进行 分 类 。 第 2 章 介 绍 了 基本 的 机 器 学 习 算 法 : k- 近 邻 算 法 ， 第 3 章 是 本 
书 第 一 次 讲述 决 朱 树 ， 第 4 章 讨 论 如 何 使 用 概率 分 布 算法 进行 分 类 以 及 
朴素 贝 叶 斯 算法 ;第 5 章 介 绍 的 Logistic 回 归 算 法 虽然 不 在 排名 前 十 的 列 
表 中 ， 但 是 引入 了 算法 优化 的 主题 ， 也 是 非常 重要 的 ， 这 一 章 最 后 还 讨 
论 了 如 何 处 理 数据 集合 中 的 缺失 值 ， 第 6 半 讨 论 了 强大 而 流行 的 支持 向 
量 机 ; 第 7 章 讨 论 AdaBoost 集 成 方法 ， 它 也 是 本 书 讨 论 分 类 机 絮 学 习 算 
法 的 最 后 一 章 ， 这 一 章 还 讨论 了 训练 样本 非 均匀 分 布 时 所 引发 的 非 均衡 


分 类 问题 。 
第 二 部 分 利用 回归 预测 数值 型 数据 


第 二 部 分 包含 两 章 ， 讨 论 连 续 型 数值 的 回归 预测 问题 。 第 8 章 主 要 讨论 
了 回归 、 云 品 和 局 部 加 权 线 性 回归 ， 此 外 还 讨论 了 机 器 学 习 算 法 必须 考 
虑 的 偏差 方差 折 中 问题 。 第 9 章 讨论 了 基于 树 的 回归 算法 和 分 类 回归 树 
(CART) 算法 。 


第 三 部 分 无 监督 学 习 


前 两 部 分 讨论 的 监督 学 习 需 要 用 户 知 道 目标 值 ， 简 单 地 说 就 是 知道 在 数 
据 中 寻找 什么 。 而 第 三 部 分 开始 讨论 的 无 监督 学 习 则 无 需 用 户 知道 搜寻 
的 目标 ， 只 需要 从 算法 程序 中 得 到 这 些 数据 的 共同 特征 。 第 10 章 讨论 的 
无 监督 学 习 算 法 是 k- 均 值 聚 类 算法 ， 第 11 间 研究 用 于 关联 分 析 的 Apriori 
算法 ， 第 12 章 讨论 如 何 使 用 FP-Growth 算 法 改进 关联 分 析 。 


第 四 部 分 其 他 工具 


本 书 的 第 四 部 分 介绍 机 器 学 习 算法 使 用 到 的 附属 工具 。 第 13 章 和 第 14 章 
引入 的 两 个 数学 运算 工具 用 于 消除 数据 噪声 ， 分 别 是 主 成 分 分 析 和 奇异 















































值 分 解 。 一 旦 机 器 学 习 算法 处 理 的 数据 集 扩张 到 无 法 在 一 台 计 算 机 上 完 
全 处 理 时 ， 就 必须 引入 分 布 式 计算 的 概念 ， 本 书 最 后 一 章 将 介绍 
MapReduce 架 构 。 








示例 


本 书 的 许多 示例 澳 示 了 如 何在 现实 世界 中 使 用 机 器 学 习 算 法 ， 通 闻 我 们 
按照 下 面 的 步骤 保证 算法 应 用 的 正确 性 : 





1. 确保 算法 应 用 可 以 正确 处 理 简单 的 数据 ; 
2. 将 现实 世界 中 得 到 的 数据 格式 化 为 算法 可 以 处 理 的 格式 ; 
3. 将 步骤 2 得 到 的 数据 输入 到 步骤 1 的 算法 中 ， 检 验算 法 的 运行 结 


千 万 不 要 忽略 前 两 个 步骤 而 直接 跳 到 步骤 3 来 检验 算法 处 理 真实 数据 的 
效果 。 任 何 复杂 系统 都 是 由 基础 工程 构成 的 ， 尤 其 是 算法 出 现 问题 时 ， 
增 量 地 搭建 系统 可 以 确保 我 们 及 时 找到 问题 出 现 的 位 置 和 原因 。 如 果 刚 
开始 就 把 这 些 堆砌 在 一 起 ， 我 们 束 很 难 发 现 到 的 是 不 准确 的 算法 实现 引 
发 的 问题 还 是 数据 格式 的 问题 。 此 外 ， 本 书 在 实现 算法 的 过 程 中 ， 记 录 
了 很 多 注意 事项 ， 将 有 助 于 读者 深入 了 解 机 髓 学 习 算法 。 




















代码 约定 和 下 载 


本 书 正文 和 程序 清单 中 的 源 代 码 都 使 用 等 宽 字 体 。 一 些 程序 清单 中 包含 
了 代码 注解 ， 以 突出 其 中 旨 合 的 重要 概念 。 在 某 些 场合 ， 带 编号 的 程序 
注释 会 在 程序 清单 之 后 进一步 解释 说 明 。 


本 书 所 有 源 代 码 均 可 在 英文 版 出 版 商 的 网 站 上 下 


载 : http://www.manning.com/MachineLearninginAction 。: 





1 读者 也 可 以 访问 图 灵 社 区 本 书页 面 提交 勘误 或 下 载 源 代码 ， 网 址 是 http://ituring.com.cn/book/1021。 





作者 在 线 


本 书 的 读者 还 可 以 访问 出 版 商 Manning 的 网 络 论坛 。 在 论坛 上 读者 可 以 

评论 本 书 的 内 容 ， 讨 论 技术 问题 ， 得 到 作者 或 其 他 用 户 的 帮助 。 为 了 使 
用 和 订阅 论坛 ， 请 访问 http:/www.manning.com/MachineLearninginAction 
， 该 网 页 包含 如 何 注 册 论坛 、 如 何 获取 帮助 以 及 论坛 的 行为 规则 。 


出 版 商 Manning 对 读者 承 话 ， 为 读者 和 作者 提供 讨论 的 空间 。 作 者 自愿 
参与 作者 在 线 论 坛 ， 我 们 也 不 承诺 作者 参与 论坛 讨论 的 次 数 。 建 议 读者 
尽量 问 作者 具有 挑战 性 的 问题 ， 以 免 浪费 作者 的 宇 贵 时 间 。 


只 要 本 书 英文 版 在 销售 ， 读 者 都 可 以 访问 英文 版 出 版 商 的 作者 在 线 论 
坛 ， 阅 读 以 前 的 讨论 文档 。 








关于 作者 


Peter Harrington 拥 有 电气 工程 学 士 和 硕士 学 位 ， 他 曾经 在 加 利 福 尼 亚 州 
和 中 国 的 Intel 公 司 工作 7 年 。Peter 拥 有 5 项 美国 专利 ， 在 三 种 学 术 期 刊 上 
发 表 过 文章 。 他 现在 是 Zillabyte 公 司 的 首席 科学 家 ， 在 加 入 该 公司 之 
前 ， 他 曾 担任 2 年 的 机 器 学 习 软 件 顾问 。Peter 在 业余 时 间 还 参加 编程 芜 
赛 和 建造 3D 打 印 机 。 











天 于 封面 


本 书 封面 插画 的 标题 为 " 伊 斯 特 里 亚 人 "〈“Man from Istria”， 伊 斯 特 里 亚 
是 克罗地亚 面向 亚 得 里 亚 海 的 一 个 很 大 半岛 ) 。 该 插画 来 自 克 罗 地 亚 斯 
普 利 特 民族 博 物 馆 2008 年 出 版 的 Balthasar Hacquet 的 《图 说 西南 及 东江 
达尔 人 、 伊 利 里 亚 人 和 斯 拉夫 人 》 (JImages and “Descriptions of 
Southwestern and Eastern Wenda, Illyrians, and Slavs) 的 最 新 重印 版 本 。 
Hacquet (1739-1815) 是 一 名 奥地利 内 科 医 生 及 科学 家 ， 他 花费 数 年 时 
间 去 研究 各 地 的 植物 、 地 质 和 人 种 ， 这 些 地 方 包括 奥 匈 项 国 的 多 个 地 
区 ， 以 及 伊利 里 亚 部 落 过 去 居住 的 〈 罗 马 帝 国 的 ) 威 尼 托 地 区 、 尤 里 安 
Ed 


Hacquet 出 版 物 中 丰富 多 样 的 插图 生动 地 描绘 了 200 年 前 西 阿 尔 卑 斯 和 巴 
尔 干 西北 地 区 的 独特 性 和 个 体 性 。 那 时 候 相 距 几 英里 的 两 个 村 庄村 民 的 
衣 看 都 杀 然 不 同 ， 当 有 社交 活动 或 交易 时 ， 不 同 地 区 的 人 们 很 容易 通过 
大 装 来 辨别 。 从 那 之 后 着 六 的 要 求 友 生 了 改变 ， 不 同 地 区 的 多 样 性 也 逐 
渐 消 亡 。 现 在 很 难说 出 不 同 大 陆 的 大 民有 多 大 区 别 ， 比 如 ， 现 在 很 难 区 
分 斯 洛 文 尼 亚 的 阿尔 插 斯 山地 区 或 巴尔 干 沿海 那些 美丽 小 镇 或 村 庄 里 的 
居民 与 欧洲 其 他 地 区 或 美国 的 居民 。 


Manning 出 版 社 利用 两 个 世纪 之 前 的 服装 来 设计 书籍 封面 ， 以 此 来 赞 颁 
计算 机 产业 所 具有 的 创造 性 、 主 动 性 和 趣味 性 。 正 如 本 书 封 面 的 图 片 一 
样 ， 这 些 图 片 也 把 我 们 带 回 到 过 去 的 生活 中 去 。 




















第 一 部 分 “分 类 


本 书 前 两 部 分 主要 探讨 监督 
过 程 中 ， 我 们 只 需要 给 定 输 
变量 的 可 能 结果 。 


监督 学 习 相 对 比较 人 简单， 机 器 只 需 从 输入 数据 中 预测 合适 的 模型 ， 并 从 
中 计算 出 目标 变量 的 结果 。 监 督学 习 一 般 使 用 两 种 类 型 的 目标 变量 : 标 
称 型 和 数值 型 。 标 称 型 目标 变量 的 结果 只 在 有 限 目 标 集中 取 值 ， 如 真 与 
假 、 动 物 分 类 集合 { 疏 行 类 、 鱼 类 、 哺 乳 类 、 两 栖 类 } ; 数值 型 目标 变 
量 则 可 以 从 无 限 的 数值 集合 中 取 值 ， 如 0.100、42.001、1000.743 等 。 数 
值 型 目标 变量 主要 用 于 回归 分 析 ， 将 在 本 书 的 第 二 部 分 研究 ， 第 一 部 分 


主要 介绍 分 类 。 


学 习 (supervised learning) 。 在 监督 学 习 的 
入 


样本 集 ， 机 器 束 可 以 从 中 推演 出 指定 目标 











本 书 的 前 七 章 主要 研究 分 类 算法 ， 第 2 章 讲 述 最 简单 的 分 类 算法 : k- 近 
邻 算 法 ， 它 使 用 茶 种 距离 计算 方法 进行 分 类 ; 第 3 章 引 入 了 决策 树 ， 它 
比较 直观 ， 容 易 理 解 ， 但 是 相对 难于 实现 ; 第 4 章 将 讨论 如 何 使 用 概率 
论 建立 分 类 器 ; 第 5 章 将 讨论 Logistic 回归 ， 如 何 使 用 最 优 参数 正确 地 
分 类 原始 数据 ， 在 搜索 最 优 参数 的 过 程 中 ， 将 使 用 几 个 经 常用 到 的 优化 
算法 ;第 6 章 介 绍 了 非常 流行 的 文 持 同 量 机 ， 第 一 部 分 最 后 的 第 7 章 将 
介绍 元 算法 一 一 AdaBoost， 它 由 硝 干 个 分 类 右 构 成 ， 此 外 还 总 结 了 第 一 
部 分 探讨 的 分 类 算法 在 实际 使 用 中 可 能 面 对 的 非 均 衡 分 类 问题 ， 一 旦 训 
练 样本 条 个 分 类 的 数据 多 于 其 他 分 类 的 数据 ， 束 会 产生 非 均 衡 分 类 问 


匮 。 














第 1 音 ”机 器 学 习 基 础 


本 章 内 容 


。 机 器 学 习 的 简单 概述 
。 机 器 学 习 的 主要 任务 
。 学 习 机 器 学 习 的 原因 
。 Python 语言 的 优势 


最 近 我 和 一 对 夫妇 共 进 上 晚餐， 他们 问 我 从 事 什 么 职业 ， 我 回应 道 : “机 
器 学 习 。” 妻 子 回头 问 丈 夫 : “亲爱 的 ， 什 么 是 机 器 学 习 ? ”她 的 丈夫 答 
道 :“T-800 型 终结 者 。” 在 《终结 者 》 系 列 电影 中 ，T-800 是 人 工 智 能 技 
术 的 反面 样板 工程 。 不 过 ， 这 位 朋友 对 机 器 学 习 的 理解 还 是 有 所 偏差 

的 。 本 书 既 不 会 探讨 和 计算 机 程序 进行 对 话 交 流 ， 也 不 会 与 计算 机 探讨 
人 生 的 意义 。 机 器 学 习 能 让 我 们 自 数据 集中 受到 启发 ， 换 句 话 说， 我 们 
会 利用 计算 机 来 彰显 数据 背后 的 真实 含义 ， 这 才 是 机 器 学 习 的 真实 含 

义 。 它 既 不 是 只 会 徒然 模仿 的 机 器 人 ， 也 不 是 具有 人 类 感情 的 仿生 人 。 


现今 ， 机 器 学 习 已 应 用 于 多 个 领域 ， 远 超出 大 多 数 人 的 想象 ， 下 面 就 是 
假想 的 一 日 ， 其 中 很 多 场景 都 会 磁 到 机 器 学 习 : 假设 你 想起 今天 是 某 位 
朋友 的 生日 ， 打 算 通 过 邮局 给 她 邮寄 一 张 生日 资 卡 。 你 打开 浏览 器 搜索 
趣味 卡片 ， 搜 索引 擎 显示 了 10 个 最 相关 的 链接 。 你 认为 第 二 个 链接 最 符 
合 你 的 要 求 ， 点 击 了 这 个 链接 ， 搜 索引 擎 将 记录 这 次 点 击 ， 并 从 中 学 习 
以 优化 下 次 搜索 结果 。 然 后 ， 你 检查 电子 邮件 系统 ， 此 时 垃圾 邮件 过 滤 
名 已 经 在 后 侣 目 动 过 小 垃圾 广告 邮件 ， 并 将 其 放 在 垃圾 箱 内 。 接 看 你 去 
商店 购买 这 张 生日 卡 请 ， 并 给 你 朋友 的 孩子 挑选 了 一 些 尿布 。 结 账 时 ， 
收银 员 给 了 你 一 张 1 美 元 的 优惠 券 ， 可 以 用 于 购买 6 缸 闭 的 啤酒 。 之 所 以 
你 会 得 到 这 张 优惠 券 ， 是 因为 球台 收费 软件 基于 以 前 的 统计 知识 ， 认 为 
买 尿 布 的 人 往往 也 会 买 啤 酒 。 然 后 你 去 邮局 邮寄 这 张 资 ” 卡 ， 手 写 识别 
软件 识别 出 邮寄 地 址 ， 并 将 贺卡 发 送 给 正确 的 邮 和 车。 当天 你 还 去 了 贷款 
申请 机 构 ， 碍 看 自己 是 否 能 够 申请 贷款 ， 办 事 员 并 不 是 直接 给 出 结果 ， 
而 是 将 你 最 近 的 金融 活动 信息 输入 计算 机 ， 由 软件 来 判定 你 是 否 合 格 。 
最 后 ， 你 还 去 了 赌场 想 找 些 乐子 ， 当 你 步 入 前 门 时 ， 尾 随 你 进来 的 一 个 
家 伙 被 突然 出 现 的 保安 给 拦 了 下 来 。 “对 不 起 ， 索 普 先 生 ， 我 们 不 得 不 
请 您 离开 赌场 。 我 们 不 欢迎 老 干 。” 图 1-1 集 中 展示 了 使 用 到 的 机 天 学 习 












































应 用 。 
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图 1-1 机 器 学 习 在 日 常生 活 中 的 应 用 ， 从 左上 角 按照 顺 时 针 方 向 依次 
使 用 到 的 机 器 学 习 技 术 分 别 为 人 脸 识 别 、 手 写 数字 识别 、 垃 圾 邮件 
过 滤 和 亚马逊 公司 的 产品 推荐 


上 面 提 到 的 所 有 场景 ， 都 有 机 器 学 习 软 件 的 存在 。 现 在 很 多 公司 使 用 机 
器 学 习 软 件 改善 商业 决策 、 提 高 生产 率 、 检 测 疾病 、 预 测 天 气 ， 等 等 。 








随 痢 技术 指数 级 增长 ， 我 们 不 仅 需要 使 用 更 好 的 工具 解析 当前 的 数据 ， 
而 且 还 要 为 将 来 可 能 产生 的 数据 做 好 充分 的 准备 。 


现在 正式 进入 本 书 机 器 学 习 的 主题 。 本 章 我 们 将 首先 介绍 什么 是 机 器 学 
习 ， 日 常生 活 中 何 处 将 用 到 机 器 学 习 ， 以 及 机 器 学 习 如 何 改进 我 们 的 工 
作 和 生活 ; 然后 讨论 使 用 机 器 学 习 解 决 问题 的 一 般 办 法 ;最 后 介绍 为 什 
么 本 书 使 用 Python 语言 来 处 理 机 器 学 习 问 题 。 我 们 将 通过 一 个 Python 模 
块 NumPy 来 简要 介绍 Python 在 抽象 和 处 理 和 矩阵 运算 上 的 优势 。 





1.1 何谓 机 器 学 习 


除却 一 些 无 关 紧 要 的 情况 ， 人 们 很 难 直接 从 原始 数据 本 身 获 得 所 需 信 
恩 。 例 如 ， 对 于 垃圾 邮件 的 检测 ， 侦 测 一 个 单词 是 否 存 在 并 没有 太 大 的 
作用 ， 然 而 当 有 茶几 个 特定 单词 同时 出 现时 ， 再 辅 以 考察 邮件 长 度 及 其 他 
因 系 ， 人 们 就 可 以 更 准确 地 判定 该 邮件 是 否 为 垃圾 邮件 。 简 单 地 说 ， 机 
融 学 习 就 是 把 无 序 的 数据 转换 成 有 用 的 信息 。 


机 器 学 习 横 跨 计算 机 科学 、 工 程 技术 和 统计 学 等 多 个 学 科 ， 需 要 多 学 科 
的 专业 知识 。 稍 后 你 就 能 了 解 到 ， 它 也 可 以 作为 实际 工具 应 用 于 从 政治 
到 地 质 学 的 多 个 领域 ， 解 决 其 中 的 很 多 问题 。 甚 至 可 以 这 么 说 ， 机 器 学 
习 对 于 任何 需要 解释 并 操作 数据 的 领域 都 有 所 神 益 。 


机 器 学 习 用 到 了 统计 学 知识 。 在 多 数 人 看 来 ， 统 计 学 不 过 是 企业 用 以 炫 
泡 产 品 功 能 的 一 种 诡计 而 已 。(Darell Huff 曾 写 过 一 本 《如 何 使 用 统计 学 
说 谎 》 (How to Lie With Statistics) 的 书 ， 颇 具 讽 刺 意味 的 是 ， 它 也 是 
有 史 以 来 卖 得 最 好 的 统计 学 书 。) 那 么 我 们 这 些 人 为 什么 还 要 利用 统计 
学 呢 ? 拿 工 程 实践 来 说 ， 它 要 利用 科学 知识 来 解决 具体 问题 ， 在 该 领域 
中 ， 我 们 常会 面 对 那 种 解法 确 滑 不 变 的 问题 。 假 如 要 编写 自动 售 货 机 的 
控制 软件 ， 那 就 最 好 能 让 它 在 任何 时 候 都 能 正确 运行 ， 而 不 必 让 人 们 再 
考虑 塞 进 的 钱 或 按 下 的 按钮 。 然 而 ， 在 现实 世界 中 ， 并 不 是 每 个 问题 都 
存在 确定 的 解决 方案 。 在 很 多 时 候 ， 我 们 都 无 法 透彻 地 理解 问题 ， 或 者 
没有 足够 的 计算 资源 为 问题 精确 建立 模型 ， 例 如 我 们 无 法 给 人 类 活动 的 
动机 建立 模型 。 为 了 解决 这 些 问题 ， 我 们 就 需要 使 用 统计 学 知识 。 


在 社会 科学 领域 ， 正 确 率 达 60% 以 上 的 分 析 被 认为 是 非常 成 功 的 。 如 果 
能 准确 地 预测 人 类 当下 60% 的 行为 ， 那 束 很 棒 了 。 这 怎么 可 以 昵 ?难道 
我 们 不 应 该 一 直 都 保持 完美 地 预测 吗 ? 如 果真 的 达 不 到 ， 是 人 否 意味 着 我 
们 做 错 了 什么 ? 


人 类 对 自身 的 极乐 有 着 必然 的 追求 。 由 此 生发 ， 我 们 为 何不 能 准确 地 预 
测 人 们 所 参与 事件 的 结果 呢 ?” 瞧 ! 这 些 问题 就 十 分 经 典 。 我 们 不 可 能 
对 它们 建立 一 种 精确 模型 。 如 何 能 让 众生 以 同样 的 方式 获得 笠 福 ? 很 

难 ， 因 为 大 家 对 笠 福 的 理解 都 是 角 异 不 同 的 。 因 此 ， 即 使 人 们 能 达到 极 
乐 境 地 这 一 假定 是 成 立 的 ， 但 如 此 复杂 的 笠 福 也 使 得 我 们 很 难 对 其 建立 
正确 的 模型 。 除 了 人 类 行为 ， 现 实 世 界 中 存在 着 很 多 例子 ， 我 们 无 法 为 
































之 建立 精确 的 数学 模型 ， 而 为 了 解决 这 类 问题 ， 我 们 就 需要 统计 学 工 


有 


1.1.1 传感器 和 海量 数据 


虽然 我 们 已 从 互联 网 上 获取 了 大 量 的 人 为 数据 ， 但 最 近 却 涌现 了 更 多 的 
非 人 为 数据 。 传 感 器 技术 并 不 时 暑 ， 但 如 何 将 它们 接 入 互联 网 确实 是 新 
的 挑战 。 有 预测 表明 ， 在 本 书 出 版 后 不 入 ，20% 的 互联 网 非 视频 流量 都 
将 由 物理 传感器 产生 '。 


地 震 预 测 束 是 一 个 很 好 的 例子 ， 传 感 费 收集 了 海量 的 数据 ， 如 何 从 这 些 
数据 中 抽取 出 有 价值 的 信息 是 一 个 非常 值得 研究 的 课题 。1989 年 ， 洛 马 
普 列 埃 搭 地 震 和 袭击 了 北 加 利 福 尼 亚 州 ，63 人 和 死记，3757 人 受伤 ， 成 干 

上 万 人 无 家 可 归 ; 然而 ， 相 同 规模 的 地 震 2010 年 认 击 了 海地 ， 死 亡 人 数 
却 超过 23 万 。 洛 马 : 普 列 埃 塔 地 震 后 不 入， 一 份 研 完 报 告 宣 称 低频 磁场 

检测 可 以 预测 地 震 *， ”但 后 续 的 研究 显示 ， 最 初 的 研究 并 没有 考虑 庄 多 
环境 因素 ， 因 而 存在 着 明 显 的 缺陷 ”*。 如 采 我 们 想 要 重 做 这 个 研究 ， 以 
便 更 好 地 理解 我 们 这 个 星球 ， 寻 找 预 测 地 震 的 方法 ， 避 免 灾难 性 的 后 

果 ， 那 么 我 们 该 如 何 入 手 才 能 更 好 地 从 事 该 研究 呢 ? 我 们 可 以 自己 掏 钱 
购买 磁力 计 ， 然 后 再 买 一 些 地 来 安放 和 它们， 当然 也 可 以 寻求 政府 的 帮 

助 ， 让 他 们 来 处 理 这 些 事 。 但 即便 如 此 ， 我 们 也 无 法 保证 磁力 计 没 有 受 
到 任何 和 干扰， 另外 ， 我 们 又 该 如 何 获取 磁力 计 的 读数 呢 ? 这 些 都 不 是 理 
想 的 解决 方法 ， 使 用 移动 电话 可 以 低 成 本 的 解决 这 个 问题 。 


现今 市 面 上 销售 的 移动 电话 和 智能 手机 均 带 有 三 轴 磁 力 计 ， 智 能 手机 还 
有 操作 系统 ， 可 以 运行 我 们 编写 的 应 用 软件 ， 十 几 行 代码 就 可 以 让 手机 
按照 每 秒 上 百 次 的 频率 读 取 磁 力 计 的 数据 。 此 外 ， 移 动 电话 上 已 经 安装 
了 通信 系统 ， 如 果 可 以 说 服 人 们 安 闭 运行 磁力 计 读 取 软 件 ， 我 们 就 可 以 
记录 下 大 量 的 磁力 计数 据 ， 而 附 帝 的 代价 则 是 非常 小 的 。 除 了 磁力 计 ， 
智能 电话 还 封装 了 很 多 其 他 传感器 ， 如 俩 航 率 陀 螺 仪 、 三 轴 加 速 计 、 这 
度 传感器 和 GPS 接收 器 ， 这 些 传感器 都 可 以 用 于 测量 研究 。 


移动 计算 和 传感器 产生 的 海量 数据 意味 着 未 来 我 们 将 面临 痢 越 来 越 多 的 
数据 ， 如 何 从 海量 数据 中 抽取 到 有 价值 的 信息 将 是 一 个 非常 重要 的 谍 


匮 。 
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1.1.2 机 器 学 习 非 常 重 要 


在 过 去 的 半 个 世纪 里 ， 发 达 国 家 的 多 数 工 作 岗 位 都 已 从 体力 劳动 转化 为 
脑力 劳动 。 过 去 的 工作 基本 上 都 有 明确 的 定义 ， 类 似 于 把 物品 从 A 处 搬 
到 B 处 ， 或 者 在 这 里 打 个 洞 ， 但 是 现在 这 类 工作 都 在 逐步 消失 。 现 今 的 
情况 具有 很 大 的 二 义 性 ， 类 似 于 “最 大 化 利 油 ”“ 最 小 化 风险 ” “找到 
最 好 的 市 场 策略 ”.… 诸 如 此 类 的 任务 要 求 都 已 成 为 常态 。 虽 然 可 从 互联 
网 上 获取 到 海量 数据 ， 但 这 并 没有 简化 知识 工人 的 工作 难度 。 针 对 具体 
任务 搞 懂 所 有 相关 数据 的 意义 所 在 ， 这 正成 为 基本 的 技能 要 求 。 正 如 谷 
歌 公司 的 首席 经 济 学 家 Hal Varian 所 说 的 那样 : 


“我 不 断 地 告诉 大 家 ， 未 来 十 年 最 热门 的 职业 是 统计 学 家 。 很 多 人 认为 
我 是 开玩笑 ， 谁 又 能 想到 计算 机 工程 师 会 是 20 世 纪 90 年 代 最 诱 人 的 职业 
呢 ?” 如 何 解释 数据 、 处 理 数 据 、 从 中 抽取 价值 、 展 示 和 交流 数据 结果 ， 
在 未 来 十 年 将 是 最 重要 的 职业 技能 ， 甚 全 是 大 学 ， 中 学 ， 小 学 的 学 生 也 
必需 具备 的 技能 ， 因 为 我 们 每 时 每 刻 都 在 接触 大 量 的 免费 信息 ， 如 何 理 
解数 据 、 从 中 抽取 有 价值 的 信息 才 是 其 中 的 关键 。 这 里 统计 和 学 家 只 是 其 
中 的 一 个 关键 环节 ， 我 们 还 需要 合理 的 展示 数据 、 交 流 和 利用 数据 。 我 
确实 认为 ， 能 够 从 数据 分 析 中 领悟 到 有 价值 信息 是 非常 重要 的 。 职 业经 
理 人 尤其 需要 能 够 合理 使 用 和 理解 自己 部 门 产 生 的 数据 。” 
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大 量 的 经 济 活动 都 依赖 于 信息 ， 我 们 不 能 在 海量 的 数据 中 迷失 ， 机 器 学 
习 将 有 助 于 我 们 罕 越 数据 雾 需 ， 从 中 抽取 出 有 用 的 信息 。 在 开始 学 习 这 
方面 的 知识 之 前 ， 我 们 必须 掌握 一 些 基 本 的 术语 ， 以 方便 后 续 章 节 的 讨 


论 。 























1.2 ”关键 术 话 


在 开始 研究 机 器 学 习 算法 之 前 ， 必 须 掌 握 一 些 基 本 的 术语 。 通 过 构建 下 
面 的 乌 类 分 类 系统 ， 我 们 将 接触 机 器 学 习 涉 及 的 常用 术语 。 这 类 系统 非 
党 有趣， 通常 与 机 器 学 习 中 的 专家 系统 有 关 。 开 发 出 能 够 识别 鸟 类 的 计 
算 机 软件 ， 乌 类 学 者 就 可 以 退休 了 。 因 为 乌 类 学 者 是 研究 乌 类 的 专家 ， 
因此 我 们 说 创建 的 是 一 个 专家 系统 。 


表 1-1 是 我 们 用 于 区 分 不 同 乌 类 需要 使 用 的 四 个 不 同 的 属性 值 ， 我 们 选 
用 体重 、 如 展 、 有 无 脚 忠 以 及 后 背 闫 色 作 为 评测 基准 。 现 实 中 ， 你 可 能 
会 想 测 量 更 多 的 值 。 通 常 的 做 法 古 测 量 所 有 可 测 属 性 ， 而 后 再 挑选 出 重 
要 部 分 。 下 面 测 量 的 这 四 种 值 称 之 为 特征 ， 也 可 以 称 作 属性 ， 但 本 书 一 
律 将 其 称 为 特征 。 表 1-1 中 的 每 一 行 都 是 一 个 具有 相关 特征 的 实例 。 


表 1-1 基于 四 种 特征 的 鸟 物种 分 类 表 


体重 ( 克 ) “ 翼 展 《厘米 ) 脚 中 后 背 颜 色 

















1000.1 125.0 这 棕色 红 尾 匡 
2 3000.7 200.0 无 灰色 路 鹰 
3 3300.0 220.3 总 灰色 监 鹰 
4 4100.0 136.0 有 黑色 普通 潜 鸟 
3.0 0 无 绿色 瑰丽 蜂鸟 
6 0.0 0 大 黑色 象牙 鸣 吸 木 鸟 


表 1-1 的 前 两 种 特征 是 数值 型 ， 可 以 使 用 十 进 制 数字 ;第 三 种 特征 是 
否 有 脚 跳 ) 是 二 值 型 ， 只 可 以 取 0 或 1， 第 四 种 特征 〈 后 背 颜色 ) 是 基于 
自 定 义 调 色 板 的 枚 举 类 型 ， 这 里 仅 选 择 一 些 常 用 色彩 。 如 果 仪 仅 利 用 当 
见 的 七 色 作为 评测 特征 ， 后 背 颜 色 也 可 以 是 一 个 整数 。 当 然 在 七 色 之 中 
0 


如 果 你 看 到 了 一 只 象牙 咏 吸 木 乌 ， 请 马上 通知 我 ! 而 且 千 万 不 要 告诉 任 
何人 。 在 我 到 达 之 前 ， 一 定 要 看 住 它 ， 别 让 它 飞 跑 了 。 《任何 发 现 活 的 
象牙 喉 吸 木 乌 的 人 都 可 以 得 到 5 万 美元 的 奖励 。) 


机 强 学 习 的 一 项 任务 束 是 分 类 。 本 市 我 们 讲述 如 何 使 用 表 1-1 进 行 分 

类 ， 标 识 出 象牙 喉 吸 木 乌 从 而 获取 5 万 美元 的 奖励 。 大 家 都 想 从 众多 其 
他 乌 类 中 分 辨 出 象牙 咏 吸 木马， 并 从 中 获 利 。 最 简单 的 做 法 是 安装 一 个 
喂食 句 ， 然 后 雇佣 一 位 乌 类 学 者 ， 观 察 在 附近 进食 的 马 类 。 如 宁 发 现象 
牙 咏 吸 木 鸟 ， 则 通知 我 们 。 这 种 方法 太 昂贵 了 ， 而 且 专家 在 同一 时 间 只 

















能 出 现在 一 个 地 方 。 我 们 可 以 自动 化 处 理 上 述 过 程 ， 安 装 多 个 带 有 照相 
机 的 喂食 器 ， 同 时 接 入 计算 机 用 于 标识 前 来 进食 的 乌 。 同 样 我 们 可 以 在 
喂食 孝 中 放置 称 重 仪器 以 获取 乌 的 体重 ， 利 用 计算 机 视觉 技术 来 提取 乌 
的 翅 长 、 脚 的 类 型 和 后 背 色 彩 。 假 定 我 们 可 以 得 到 所 需 的 全 部 特征 信 
恩 ， 那 该 如 何 判断 飞 入 进食 器 的 乌 是 不 是 象牙 喉 吸 木 乌 昵 ? 这 个 任务 就 
古 分 类 ， 有 很 多 机 器 学 习 算 法 非常 善于 分 类 。 本 例 中 的 类 别 束 是 乌 的 物 
种 ， 更 具体 地 说 ， 残 是 区 分 是 否 为 象牙 唆 啊 木 乌 。 


最 终 我 们 决定 使 用 菏 个 机 右 学 习 算 法 进行 分 类 ， 首 先 需 要 做 的 是 算法 训 
练 ， 即 学 习 如 何 分 类 。 通 常 我 们 为 算法 输入 大 量 已 分 类 数据 作为 算法 的 
训练 集 。 训 练 集 是 用 于 训练 机 器 学 习 算法 的 数据 样本 集合 ， 表 1-1 是 包 
含 六 个 训练 样本 的 训练 集 ， 每 个 训练 样本 有 4 种 特征 、 一 个 目标 变量 ， 

如 图 1-2 所 示 。 目 标 变量 是 机 器 学 习 算 法 的 预测 结果 ， 在 分 类 算法 中 目 

标 变 量 的 类 型 通常 是 离散 型 的 ， 而 在 回归 算法 中 通 第 是 连续 型 的 。 训 练 
样本 集 必须 确定 知道 目标 变量 的 值 ， 以 便 机 器 学 习 算 法 可 以 发 现 特征 和 
目标 变量 之 间 的 关系 。 正 如 前 文 所 述 ， 这 里 的 目标 变量 是 物种 ， 也 可 以 
简化 为 标 称 型 的 数值 。 我 们 通常 将 分 类 问题 中 的 目标 变量 称 为 类 别 ， 并 
假定 分 类 问题 只 存在 有 限 个 数 的 类 别 。 


























Weight Wingspan Webbed feet? Back color Species 


1000,1 125.0 No Brown Buteo jamaicensis 
3000.7 200.0 No Gray Sagittarius serpentarius 
| 
特征 目 标 变 量 





图 1-2 特征 和 标识 的 目标 变量 


注意 : 特征 或 者 属性 通 第 是 训练 样本 集 的 列 ， 它 们 是 独立 测量 得 到 
的 结果 ， 多 个 特征 联系 在 一 起 共同 组 成 一 个 训练 样本 。 


为 了 测试 机 器 学 习 算 法 的 效 打 ， 通 种 使 用 两 套 独 立 的 样本 集 : 训练 数据 
和 测试 数据 。 当 机 右 学 习 程序 开始 运行 时 ， 使 用 训练 样本 集 作为 算法 的 
输入 ， 训 练 完 成 之 后 输入 测试 样本 。 输 入 测试 样本 时 并 不 提供 测试 样本 
的 目标 变量 ， 由 程 友 决 定 样本 属于 哪个 类 别 。 比 较 测试 样本 预测 的 目标 
变量 值 与 实际 样本 类 列 之 间 的 差别 ， 就 可 以 得 出 算法 的 实际 精确 度 。 本 
书 的 后 续 半 市 将 会 引入 更 好 地 使 用 测试 样本 和 训练 样本 信息 的 方法 ， 这 











里 就 不 再 详 述 。 


假定 这 个 乌 类 分 类 程序 ， 经 过 测试 满足 精确 上 度 要 求 ， 是 否 我 们 就 可 以 看 
到 机 器 已 经 学 会 了 如 何 区 分 不 同 的 马 类 了 呢 ? 这 部 分 工作 称 之 为 知识 表 
示 ， 东 些 算法 可 以 产生 很 容易 理解 的 知识 表示 ， 而 东 些 算法 的 知识 表示 
也 许 只 能 为 计算 机 所 理解 。 知 识 表示 可 以 采用 规则 集 的 形式 ， 也 可 以 采 
用 概率 分 布 的 形式 ， 甚 至 可 以 是 训练 样本 集中 的 一 个 实例 。 在 东 些 场合 
中 ， 人 们 可 能 并 不 想 建 立 一 个 专家 系统 ， 而 仅仅 对 机 融 学 习 算 法 获取 的 
言 恩 感 兴趣 。 此 时 ， 采 用 何 种 方式 表示 知识 就 显得 非常 重要 了 。 


本 节 介 绍 了 机 器 学 习 领 域 涉 及 的 关键 术语 ， 后 续 章节 将 会 在 必要 时 引入 
其 他 的 术语 ， 这 里 残 不 再 进一步 说 明 。 下 一 节 将 会 介绍 机 絮 学 习 算 法 的 
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1.3 ”机 敌 学 习 的 主要 任务 


本 节 主 要 介绍 机 器 学 习 的 主要 任务 ， 并 给 出 一 个 表格 ， 帮 助 读 者 将 机 器 
学 习 算 法 转化 为 可 实际 运作 的 应 用 程序 。 


上 节 的 例子 介绍 了 机 器 学 习 如 何 解 决 分 类 问题 ， 它 的 主要 任务 是 将 实例 
数据 划分 到 合适 的 分 类 中 。 机 占 学 习 的 男 一 项 任务 是 回归 ， 它 主要 用 于 
预测 数值 型 数据 。 大 多 数 人 可 能 都 见 过 回归 的 例子 一 一 数据 拟 合 曲线 : 
通过 给 定数 据点 的 最 优 拟 合 曲线 。 分 类 和 回归 属于 监督 学 习 ， 之 所 以 称 
之 为 监督 等 习 ， 古 因为 这 类 算法 必须 知道 预测 什么 ， 即 目标 变量 的 分 类 
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与 监督 学 习 相 对 应 的 是 非 监 督学 习 ， 此 时 数据 没有 类 别 信息 ， 也 不 会 给 
定 目标 值 。 在 非 监督 学 习 中 ， 将 数据 集合 分 成 由 类 似 的 对 象 组 成 的 多 个 
类 的 过 程 梓 称 为 聚 类 ; 将 寻找 描述 数据 统计 值 的 过 程 称 之 为 密度 估计 。 
此 外 ， 非 监督 学 习 还 可 以 减少 数据 特征 的 维度 ， 以 便 我 们 可 以 使 用 二 维 
或 三 维 图 形 更 加 直观 地 展示 数据 信息 。 表 1-2 列 出 了 机 器 学 习 的 主要 任 
务 ， 以 及 解决 相应 问题 的 算法 。 


表 1-2 用 于 执行 分 类 、 回 归 、 聚 类 和 密度 估计 的 机 器 学 习 算法 


监督 学 习 的 用 途 

















k- 近 邻 算 法 线性 回归 





























朴素 贝 叶 斯 算法 局 部 加 权 线性 回归 
支持 向 量 机 Ridge 回归 
决策 树 Lasso 最 小 回归 系数 估计 
无 监督 学 习 的 用 途 
均值 大 期 望 算法 
DBSCAN Parzen 窗 设计 





你 可 能 已 经 注意 到 表 1-2 中 的 很 多 算法 都 可 以 用 于 解决 同样 的 问题 ， 有 
心 人 肯定 会 问 :“ 为 什么 解决 同一 个 问题 存在 四 种 方法 ? 精通 其 中 一 种 
算法 ， 是 否 可 以 处 理 所 有 的 类 似 问 题 ? ”本 书 的 下 一 节 将 回答 这 些 疑 
问 。 


1.4 如 何 选择 合适 的 算法 


从 表 1-2 中 所 列 的 算法 中 选择 实际 可 用 的 算法 ， 必 须 考 虑 下 面 两 个 问 
题 : 一、 使 用 机 器 学 习 算 法 的 目的 ， 想 要 算法 完成 何 种 任务 ， 比 如 ， 是 
预测 明天 下 雨 的 概率 还 是 对 投票 者 按照 兴趣 分 组 ， 二 、 需 要 分 析 或 收集 
的 数据 是 什么 。 


首先 考虑 使 用 机 器 学 习 算 法 的 目的 。 如 果 想 要 预测 目标 变量 的 值 ， 则 可 
以 选择 监督 学 习 算法 ， 否 则 可 以 选择 非 监 督学 习 算 法 。 确 定 选择 监督 学 
习 算 法 之 后 ， 需 要 进一步 确定 目标 变量 类 型 ， 如 果 目 标 变量 是 离散 型 ， 
如 是 / 否 、12/3、A/B/C 或 者 红 / 黄 / 黑 等 ， 则 可 以 选择 分 类 算法 ; 如 果 目 
标 变 量 是 连续 型 的 数值 ， 如 0.0 一 100.00、-999 一 999 或 者 +oo 一 -oo 等 ， 则 
需要 选择 回归 算法 。 


如 末 不 想 预 测 目 标 变 量 的 值 ， 则 可 以 选择 非 监督 学 习 算 法 。 进 一 步 分 析 
是 售 需 要 将 数据 划分 为 离散 的 组 。 如 果 这 是 唯一 的 需求 ， 则 使 用 聚 类 算 
人 
法 。 


在 大 多 数 情况 下 ， 上 面 给 出 的 选择 方法 都 能 帮助 读者 选择 恰当 的 机 器 学 
习 算 法 ， 但 这 也 并 非 一 成 不 变 。 第 9 章 我 们 就 会 使 用 分 类 算法 来 处 理 回 
归 问 题 ， 显 然 这 将 与 上 面 监督 学 习 中 处 理 回归 问题 的 原则 不 同 。 


其 次 需要 考虑 的 是 数据 问题 。 我 们 应 该 充分 了 解数 据 ， 对 实际 数据 了 解 
得 越 充 分 ， 越 容易 创建 符合 实际 需求 的 应 用 程序 。 主 要 应 该 了 解数 据 的 
以 下 特性 : 特征 值 是 离散 型 变量 还 是 连续 型 变量 ， 特 征 值 中 是 售 存 在 缺 
失 的 值 ， 何 种 原因 造成 缺失 值 ， 数 据 中 是 个 存 在 异 单 值 ， 东 个 特征 发 生 
的 频率 如 何 〈 是 人 否 罕 见得 如 同 海底 捞 针 ) ， 等 等 。 充 分 了 解 上 面 提 到 的 
这 些 数据 特性 可 以 缩短 选择 机 器 学 习 算 法 的 时 间 。 


我 们 只 能 在 一 定 程度 上 缩小 算法 的 选择 范围 ， 一 般 并 不 存在 最 好 的 算法 
或 者 可 以 给 出 最 好 结果 的 算法 ， 同 时 还 要 尝试 不 同 算法 的 执行 效果 。 对 
于 所 选 的 每 种 算法 ， 都 可 以 使 用 其 他 的 机 器 学 习 技 术 来 改进 其 性 能 。 在 
处 理 输入 数据 之 后 ， 两 个 算法 的 相对 性 能 也 可 能 会 发 生变 化 。 后 续 章 节 
我 们 将 进一步 讨论 此 类 问题 ， 一 般 说 来 友 现 最 好 算法 的 关键 环 市 是 反复 
试 错 的 迭代 过 程 。 























机 器 学 习 算 法 虽然 各 不 相同 ， 但 是 使 用 算法 创建 应 用 程序 的 步骤 却 基 本 
类 似 ， 下 一 节 将 介绍 如 何 使 用 机 喜 学 习 算 法 的 通用 步骤 。 


1.5 开发 机 器 学 习 应 用 程序 的 步 又 
本 书 学 习 和 使 用 机 器 学 习 算 法 开发 应 用 程序 ， 通 常 遵循 以 下 的 步 又。 


1. 收集 数据 。 我 们 可 以 使 用 很 多 方法 收集 样本 数据 ， 如 : 制作 网 络 爬 虫 
从 网 站 上 抽取 数据 、 从 RSS 反 馈 或 者 API 中 得 到 信息 、 设 备 发 送 过 来 的 
实测 数据 (风速 、 血 糖 等 》。 提 取 数 据 的 方法 非常 多 ， 为 了 市 省 时 间 与 
精力 ， 可 以 使 用 公开 可 用 的 数据 源 。 


2. 准备 输入 数据 。 得 到 数据 之 后 ， 还 必须 确保 数据 格式 符合 要 求 ， 本 书 
采用 的 格式 是 Python 语言 的 List。 使 用 这 种 标准 数据 格式 可 以 融合 算法 
和 数据 源 ， 方 便 史 配 操作 。 本 书 使 用 Python 语言 构造 算法 应 用 ， 不 熟悉 
的 读者 可 以 学 习 附 录 A。 


此 外 还 需要 为 机 器 学 习 算 法 准备 特定 的 数据 格式 ， 如 某 些 算法 要 求 特征 
值 使 用 特定 的 格式 ， 一 些 算法 要 求 目标 变 量 和 特征 值 是 字符 串 类 型 ， 而 
男 一 些 算法 则 可 能 要 求 是 整数 类 型 。 后 续 章 节 我 们 还 要 讨论 这 个 问题 ， 
但 是 与 收集 数据 的 格式 相 比 ， 处 理 特殊 算法 要 求 的 格式 相对 简单 得 多 。 


3. 分 析 输 入 数据 。 此 步骤 主要 是 人 工分 析 以 前 得 到 的 数据 。 为 了 确保 前 
两 步 有 效 ， 最 简单 的 方法 是 用 文本 编辑 器 打开 数据 文件 ， 查 看 得 到 的 数 
据 是 否 为 空 值 。 此 外 ， 还 可 以 进一步 浏览 数据 ， 分 析 是 否 可 以 识别 出 模 
式 ; 数据 中 是 人 否 存在 明显 的 异常 值 ， 如 茶 些 数据 点 与 数据 集中 的 其 他 值 
存在 明显 的 差异 。 通 过 一 维 、 二 维 或 三 维 图 形 展示 数据 也 是 不 错 的 方 
法 ， 然 而 大 多 数 时 候 我 们 得 到 数据 的 特征 值 都 不 会 低 于 三 个 ， 无 法 一 次 
图 形 化 展示 所 有 特征 。 本 书 的 后 续 章 节 将 会 介绍 提炼 数据 的 方法 ， 使 得 
多 维 数据 可 以 压缩 到 二 维 或 三 维 ， 方 便 我 们 图 形 化 展示 数据 。 


这 一 步 的 主要 作用 是 确保 数据 集中 没有 垃圾 数据 。 如 果 是 在 产品 化 系统 
中 使 用 机 器 学 习 算 法 并 且 算 法 可 以 处 理 系 统 产生 的 数据 格式 ， 或 者 我 们 
信任 数据 来 源 ， 可 以 直接 跳 过 第 3 步 。 此 步骤 需要 人 工 干 预 ， 如 果 在 目 
动 化 系统 中 还 需要 人 工 干 预 ， 显 然 束 降低 了 系统 的 价值 。 


4. ”训练 算法 。 机 器 学 习 算法 从 这 一 步 才 真 正 开始 学 习 。 根 据 算法 的 不 
同 ， 第 4 步 和 第 5 步 是 机 器 学 习 算 法 的 核心 。 我 们 将 前 两 步 得 到 的 格式 化 
数据 输入 到 算法 ， 从 中 抽取 知识 或 信息 。 这 里 得 到 的 知识 需要 存储 为 计 


















































算 机 可 以 处 理 的 格式 ， 方 便 后 续 步 又 使 用 。 


如 采 使 用 非 监督 学 习 算 法 ， 由 于 不 存在 目标 变量 值 ， 故 而 也 不 需要 训练 
算法 ， 所 有 与 算法 相关 的 内 容 部 集中 在 第 5 步 。 


5。， 测试 算法 。 这 一 步 将 实际 使 用 第 4 步 机 器 学 习 得 到 的 知识 信息 。 为 了 
评 们 算法， 必须 测试 算法 工作 的 效果 。 对 于 监督 和 学习， 必须 已 知 用 于 评 
估算 法 的 目标 变量 值 ， 对 于 非 监督 学 习 ， 也 必须 用 其 他 的 评测 手段 来 检 
验算 法 的 成 功率 。 无 论 哪 种 情形 ， 如 果 不 满 意 算法 的 输出 结果 ， 则 可 以 
回 到 第 4 步 ， 改 正 并 加 以 测试 。 问 题 沼 常会 跟 数据 的 收集 和 准备 有 关 ， 
这 时 你 就 必须 跳 回 第 1 步 重新 开始 。 


6. 使 用 算法 。 将 机 器 学 习 算法 转换 为 应 用 程序 ， 执 行 实际 任务 ， 以 检验 
上 述 步骤 是 否 可 以 在 实际 环境 中 正常 工作 。 此 时 如 果 碰 到 新 的 数据 问 
题 ， 同 样 需要 重复 执行 上 述 的 步骤。 


下 节 我 们 将 讨论 实现 机 串 学 习 算 法 的 编程 语言 Python。 之 所 以 选择 
Python， 是 因为 它 具 有 其 他 编程 语言 不 具备 的 优势 ， 如 易于 理解 、 丰 语 
的 函数 库 《〈 尤 其 是 矩阵 操作 ) 、 活 跃 的 开发 者 社区 等 。 



































1.6 ”Python 语言 的 优势 


基于 以 下 三 个 原因 ， 我 们 选择 Python 作为 实现 机 器 学 习 算法 的 编程 语 
言 : (1) Python 的 语法 清晰 ，(2) 易于 操作 纯 文本 文件 ，(3) 使 用 广泛 ， 存 
在 大 量 的 开发 文档 。 


1.6.1 可 执行 伪 代 码 


Python 具有 清晰 的 语法 结构 ， 大 家 也 把 它 称 作 可 执行 伪 代 码 
(executable pseudo-code) 。 默 认 安 闭 的 Python 开发 环境 已 经 附带 了 很 
多 高 级 数据 类 型 ， 如 列表 、 元 组 、 字 典 、 人 集合、 队列 等 ， 无 需 进 一 步 编 
程 就 可 以 使 用 这 些 数据 类 型 的 操作 。 使 用 这 些 数据 类 型 使 得 实现 抽象 的 
数学 概念 非常 简单 。 此 外 ， 旋 者 还 可 以 使 用 自己 熟悉 的 编程 风格 ， 如 面 
同 对 象 编 程 、 面 句 过 程 编 程 、 或 者 函数 式 编程 。 不 熟悉 Python 的 读者 可 
以 参阅 附录 A， 该 附录 详细 介绍 了 Python 语言 、Python 使 用 的 数据 类 型 
以 及 安装 指南 。 


Python 语 言 处 理 和 操作 文本 文件 非常 简单 ， 非 第 易于 处 理 非 数 值 型 数 
扬 。Python 语 言 提供 了 丰富 的 正则 表达 式 函 数 以 及 很 多 访问 Web 页 面 的 
函数 库 ， 使 得 从 HTML 中 提取 数据 变 得 非常 简单 直观 。 


1.6.2 Python 比较 流行 


Python 语言 使 用 广泛 ， 代 码 范 例 也 很 多 ， 便 于 读者 快速 学 习 和 和 掌握。 此 
外 ， 在 开发 实际 应 用 程序 时 ， 也 可 以 利用 丰富 的 模块 库 缩短 开发 周期 。 


在 科学 和 金融 领域 ，Python 语 言 得 到 了 广泛 应 用 。SciPy 和 NumPy 等 许 
多 科学 函数 库 都 实现 了 向 量 和 和 矩阵 操作 ， 这 些 函 数 库 增加 了 代码 的 可 读 
性 ， 学 过 线性 代数 的 人 部 可 以 看 异 代 码 的 实际 功能 。 妨 外 ， 科 学 函数 库 
SciPy 和 NumpPy 使 用 底层 语言 (C 和 Fortran) 编写 ， 提 高 了 相关 应 用 程序 
的 计算 性 能 。 本 书 将 大 量 使 用 Python 的 NumPy。 


Python 的 科学 工具 可 以 与 绘图 工具 Matplotlib 协 同 工 作 。Matplotlib 可 以 
绘制 2D、3D 图 形 ， 也 可 以 处 理科 学 研究 中 经 常 使 用 到 的 图 形 ， 所 以 本 
书 也 将 大 量 使 用 Matplotlib。 











Python 开发 环境 还 提供 了 交互 式 shel 环 境 ， 人 允许 用 户 开 发 程序 时 查看 和 
检测 程序 内 容 。 


Python 开发 环境 将 来 还 会 集成 Pylab 模 块 ， 它 将 NumPy、SciPy 和 
Matplotlib 合 并 为 一 个 开发 环境 。 在 本 书写 作 时 ，Pylab 还 没有 并 入 
Python 环境 ， 但 是 不 远 的 将 来 我 们 肯定 可 以 在 Python 开发 环境 找到 它 。 


1.6.3 Python 语言 的 特色 


详 如 MATLAB 和 Mathematica 等 局 级 程序 语言 也 允许 用 户 执 行 矩 阵 操 
作 ，MATLAB 甚 至 还 有 许多 内 髓 的 特征 可 以 轻松 地 构造 机 器 学 习 应 
用 ， 而 且 MATLAB 的 运算 速度 也 很 快 。 然 而 MATLAB 的 不 足 之 处 是 软 
件 费用 太 高 ， 单 个 软件 授权 就 要 花费 数 干 美元 。 虽 然 也 有 适合 
MATLAB 的 第 三 方 插 件 ， 但 是 没有 一 个 有 影响 力 的 大 型 开源 项 目 。 


Java 和 C 等 强 类 型 程序 设计 语言 也 有 算 阵 数学 库 ， 然 而 对 于 这 些 程 序 设 
计 语 言 来 说 ， 最 大 的 问题 是 即使 完成 简单 的 操作 也 要 编写 大 量 的 代码 。 
程序 员 首 先 需要 定义 变量 的 类 型 ， 对 于 Java 来 说 ， 每 次 封装 属性 时 还 需 
要 实现 getter 和 setter 方 法 。 男 外 还 要 记 着 实现 子 类 ， 即 使 并 不 想 使 用 子 
类 ， 也 必须 实现 子 类 方法 。 为 了 完成 一 个 简单 的 工作 ， 我 们 必须 花费 大 
量 时 间 编 写 了 很 多 无 用 宛 长 的 代码 。Python 语 言 则 与 Java 和 C 完 全 不 

同 ， 它 清晰 简练 ， 而 且 易 于 理解 ， 即 使 不 是 编程 人 员 也 能 够 理解 程序 的 
含义 ， 而 Java 和 C 对 于 非 编 程 人 员 则 像 天 书 一 样 难于 理解 。 


所 有 人 在 小 学 二 年 级 已 经 学 会 了 写作 ， 然 而 大 多 数 人 必须 从 事 其 他 更 重 
要 的 工作 。 












































一 一 鲍 比 . 蒜 特 


也 许 茶 一 天 ， 我 们 可 以 在 这 句 话 中 将 “写作 ” 丛 代 为 “编写 代码 ”， 虽 然 有 
些 人 对 于 编写 代码 很 感 兴趣 ， 但 是 对 于 大 多 数 人 来 说 ， 编 程 仅 是 完成 其 
他 任务 的 工具 而 已 。Python 语 言 是 高 级 编程 语言 ， 我 们 可 以 花费 更 多 的 
时 间 处 理 数据 的 内 在 含义 ， 而 无 须 花 费 太 多 精力 解决 计算 机 如 何 得 到 数 
据 结 果 。Python 语 言 使 得 我 们 很 容易 表达 上 自己 的 目的 。 


1.6.4 ”Python 语言 的 缺点 


Python 语言 唯一 的 不 足 是 性 能 问题 。Python 程 序 运 行 的 效率 不 如 Java 或 

















者 C 代 码 高 ， 但 是 我 们 可 以 使 用 Python 调 用 C 编 译 的 代码 。 这 样 ， 我 们 就 
可 以 同时 利用 C 和 Python 的 优点 ， 逐 步 地 开发 机 器 学 习 应 用 程序 。 我 们 
可 以 首先 使 用 Python 编写 实验 程序 ， 如 果 进 一 步 想 要 在 产品 中 实现 机 器 
学 习 ， 转 换 成 C 代 码 也 不 困难 。 如 果 程 序 是 按照 模块 化 原则 组 织 的 ， 我 
们 可 以 先 构造 可 运行 的 Python 程序 ， 然 后 再 逐步 使 用 C 代 码 蔡 换 核心 代 
人 码 以 改进 程序 的 性 能 。C++ ”Boost 库 就 适合 完成 这 个 任务 ， 其 他 类 似 于 
站 PyPy 的 工具 也 可 以 编写 强 类 型 的 Python 代 码 ， 改 进 一 般 Python 
程序 的 性 能 。 


如 琳 程序 的 算法 或 者 思想 有 人 缺陷， 则 无 论 程 序 的 性 能 如 何 ， 都 无 法 得 到 
正确 的 结果 。 如 果 解 决 问 题 的 思想 存在 问题 ， 那 么 单纯 通过 提高 程序 的 
运行 效率 ， 扩 展 用 户 规模 都 无 法 解决 这 个 核心 问题 。 从 这 个 角度 来 看 ， 
Python 快 速 实现 系统 的 优势 就 更 加 明显 了， 我 们 可 以 快速 地 检验 算法 或 
者 思想 是 否 正 确 ， 如 果 和 需要， 再 进一步 优化 代码 。 


本 市 大 致 介绍 了 本 书 选 择 Python 语 言 实现 机 器 学 习 算法 的 原因 ， 下 市 我 
们 将 学 习 Python 语 言 的 shell 开 发 环境 以 及 NumPy 函 数 库 。 





1.7 NumPy 函 数 库 基 础 


机 器 学 习 算法 涉及 很 多 线性 代数 知识 ， 因 此 本 书 在 使 用 Python 语言 构造 
机 峰 学 习 应 用 时 ， 会 经 常 使 用 NumPy 函 数 库 。 如 宁 不 熟悉 线性 代数 也 不 
用 着 急 ， 这 里 用 到 线性 代数 只 0 





学 运算 。 将 数据 表示 为 矩阵 形式 ， 只 需要 执行 简单 的 窍 阵 运算 而 不 需 





复杂 的 循环 操作 。 在 你 使 用 本 书 开始 学 习 机 器 学 习 算 法 之 前 ， 了 
可 以 正确 运行 Python 开发 环境 ， 同 时 正确 安装 了 NumPy 函 数 库 。NumPy 
函数 库 是 Python 开发 环境 的 一 个 独立 模块 ， 而 且 大 多 数 Python 发 行 版 没 
0 数 库 ， 因 此 在 安装 Python 之 后 必须 单独 安装 NumPy 





函数 库 。 在 Windows 命 令 行 提示 符 下 输入 c:N\Python27\python.exe， 
Linux 或 者 Mac OS 的 终端 上 输入 python， 进 入 Python shell 开 发 环境 
后 ， 一 旦 看 到 下 述 提 示 符 就 意味 着 我 们 已 经 进入 Python shell 开 发 环境 


>>> 





在 Python shell 开 发 环境 中 输入 下 列 命令 


>>> from numpy import * 


述 命 俞 令 将 NumPy 函 数 库 中 的 所 有 窜 基 引入 当 前 的 命名 空间 。Mac 
吉 果 如 图 1-3 所 示 。 


Terminal 一 Python — 79x19 
Lost login: Mon Nov 22 88:35:55 on ttys000 旦 
peter-harringtons-imoc:~ pbhorrin$ python 
Python 2.6.1 (r261:67515, Feb 11 2010, 00:51:29) 
[ccc 4.2.1 (Apple Inc, build 5646)] on dorvin 
Type “help” “copyright", "credits"” or "1tcense”for more tnforwotton 。 
> from nunpy import * 
>>> 


图 1-3 ”命令 行 启 动 Python 并 在 Python shell 开 发 环境 中 导入 模块 
然后 在 Python shell 开 发 环境 中 输入 下 述 命令 : 


>>> random.rand(4,4) 
array([[ 0.70328595， 0.40951383, 0.7475052 ， 9.07061094] ， 


下 


今 


OS 


[ 0.9571294 ， 0.97588446, 0.2728084 ， 0.5257719 ]， 
[ 0.05431627, 0.01396732, 0.60304292, 0.19362288]，, 
[ 0.10648952, 0.27317698, 0.45582919, 0.04881605]]) 


上 述 命令 构造 了 一 个 4x4 的 随机 数组 ， 因 为 产生 的 是 随机 数组 ， 不 同 计 
算 机 的 输出 结果 可 能 与 上 述 结果 完全 不 同 。 


NumPy 和 矩阵 与 数组 的 区 别 


NumPy 函 数 库 中 存在 两 种 不 同 的 数据 类 型 〈 和 天 阵 matrix 和 数组 
array) ， 都 可 以 用 于 处 理 行 列表 示 的 数字 元 素 。 虽 然 它 们 看 起 来 很 
相似 ， 但 是 在 这 两 个 数据 类 型 上 执行 相同 的 数学 运算 可 能 得 到 不 同 
的 结果 ， 其 中 NumPy 函 数 库 中 的 matrix 与 MATLAB 中 matrices 等 

fi 


调用 mat() 函 数 可 以 将 数组 转化 为 符 阵 ， 输 入 下 述 命令 : 


>>> randMat = mat(random.rand(4,4)) 














由 于 使 用 随机 函数 产生 和 矩阵， 不 同 计算 机 上 输出 的 值 可 能 略 有 不 同 : 


>>> randMat , 工 

matrix([[ 0.24497106， 1.75854497, -1.77728665, -0.0834912 ]， 
[ 1.49792202, 2.12925479, 1.32132491, -9.75890849], 
[ 2.76042144, 1.67271779, -0.29226613, -8.45413693], 
[-2.03011142, -3.07832136, 1.4420448 ， 9.62598044]]) 


.I 操作 符 实现 了 窍 阵 求 敢 的 运算 。 非 第 简单 吧 ? 没有 NumPy 库 ，Python 
也 不 能 这 么 容易 算出 来 矩阵 的 逆 运 算 。 不 记得 或 者 没 学 过 窍 阵 求 逆 也 没 
关系 ，NumPy 库 帮 我 们 做 完了 ， 执 行 下 面 的 命令 存储 逆 窍 阵 : 


>>> InvRandMat = randMat . 工 


接着 执行 矩阵 乘法 ， 得 到 矩阵 与 其 逆 矩 阵 相 乘 的 结果 : 


>>> randMat*invRandMat 
matrix([[ 1.00000000e+00, 0.00000000e+00, 2.22044605e-16, 1.77635684e-15]，, 


[ 0.00000000e+00, 1.00000000e+00, 0.00000000e+00， 0.00000000e+00], 
[ 0.00000000e+00, 4.44089210e-16, 1.00000000e+00, -8.88178420e- 

16], 
-2.22044605e-16, 0.00000000e+00, 1.11022302e- 


16, 1.00000000e+00]]) 


结果 应 该 是 单位 矩阵 ， 除 了 对 角 线 元 系 是 1，4x4 算 阵 的 其 他 元 素 应 该 全 
是 0。 实 际 输出 结果 上 略 有 不 同 ， 和 矩阵 里 还 留 下 了 许多 非常 小 的 元 素 ， 这 
是 计算 机 处 理 误差 产生 的 结果 。 输 入 下 述 命 令 ， 得 到 误差 值 : 


>>> myEye = randMat*invRandMat 
>>> myEye - eye(4) 
matrix([[ 0.00000000e+00, -6.59194921e-17, -4.85722573e-17, -4.99600361e-16], 
2.22044605e-16, 0.00000000e+00, -6.03683770e-16, -7.77156117e-16], 
[ -5.55111512e-17, -1.04083409e-17, -3.33066907e-16, -2.22044605e-16]，, 
[ 5.55111512e-17, 1.56125113e-17, -5.55111512e-17, 0.00000000e+00]]) 





函数 eye(4) 创 建 4x4 的 单位 矩阵。 


只 要 能 够 顺利 地 完成 上 述 例子 ， 束 说 明 已 经 正确 地 安装 了 NumPy 函 数 
库 ， 以 后 我 们 束 可 以 利用 它 构造 机 器 学 习 应 用 程序 。 即 使 没有 提前 学 习 
A 
功能。 


1.8 ”本 章 小 结 


尽管 没有 引起 大 多 数 人 的 注意 ， 但 是 机 器 学 习 算法 已 经 广泛 应 用 于 我 们 
的 日 常生 活 之 中 。 每 天 我 们 需要 处 理 的 数据 在 不 断 地 增加 ， 能 够 深入 理 
解数 据 背 后 的 真实 含义 ， 是 数据 驱动 产业 必须 具备 的 基本 技能 。 


学 习 机 器 学 习 算 法 ， 必 须 了 解数 据 实 例 ， 每 个 数据 实例 由 多 个 特征 值 组 
成 。 分 类 是 基本 的 机 器 学 习 任 务 ， 它 分 析 未 分 类 数据 ， 以 确定 如 何 将 其 
放 入 己 知 群 组 中 。 为 了 构建 和 训练 分 类 器， 必须 首先 输入 大 量 已 知 分 类 
的 数据 ， 我 们 将 这 些 数 据 称 为 训练 样本 集 。 


尽管 我 们 构造 的 乌 类 识别 专家 系统 无 法 像 人 类 专家 一 样 精确 地 识别 不 同 
的 乌 类 ， 然 而 构建 接近 专家 水 平 的 机 器 系统 可 以 显著 地 改进 我 们 的 生活 
质量 。 如 采 我 们 可 以 构造 的 医生 专家 系统 能 够 达到 人 类 医生 的 准确 率 ， 
则 病人 可 以 得 到 快速 的 治疗 ， 如 有 果 我 们 可 以 改进 天 气 预报 ， 则 可 以 减少 
水 资源 的 短缺 ， 提 高 食物 供给 。 我 们 可 以 列举 许 许多 多 这 样 的 例子 ， 机 
需 学 习 的 应 用 前 景 几 乎 是 无 限 的 。 


第 一 部 分 的 后 续 6 半 主 要 研究 分 类 问题 ， 它 是 监督 学 习 算法 的 一 个 分 
支 ， 下 一 半 我 们 将 介绍 第 一 个 分 类 算法 一 一 kK- 近邻 算 法 。 




















第 2 革 kk- 近 邻 算法 


。 上 近邻 分 类 算法 

。 从 文本 文件 中 解析 和 导入 数据 
。 使 用 Matplotlib 创 建 扩 散 图 

。 归 一 化 数值 


众所周知 ， 电 影 可 以 按照 题材 分 类 ， 然 而 题材 本 身 是 如 何 定义 的 ?由 谁 
来 判定 东部 电影 属于 哪个 题材 ?也 就 是 说 同一 题材 的 电影 具有 哪些 公共 
特征 ?这 些 都 是 在 进行 电影 分 类 时 必须 要 考虑 的 问题 。 没 有 哪个 电影 人 
会 说 目 己 制作 的 电影 和 以 前 的 某 部 电影 类 似 ， 但 我 们 确实 知道 每 部 电影 
在 风格 上 的 确 有 可 能 会 和 同 题材 的 电影 相近 。 那 么 动作 片 具有 哪些 共有 
特征 ， 使 得 动作 片 之 间 非 常 类似， 而 与 爱情 片 存在 着 明显 的 差别 呢 ? 动 
作 片 中 也 会 存在 接吻 镜头 ， 爱 情 片 中 也 会 存在 打斗 场景 ， 我 们 不 能 单纯 
依靠 是 人 否 存在 打斗 或 者 杀 吻 来 判断 影片 的 类 型 。 但 是 爱情 片 中 的 杀 吻 镜 
头 更 多 ， 动 作 片 中 的 打斗 场景 也 更 频 系 ， 基 于 此 类 场景 在 东部 电影 中 出 
现 的 次 数 可 以 用 来 进行 电影 分 类 。 本 章 第 一 节 基 于 电影 中 出 现 的 杀 吻 、 
打斗 出 现 的 次 数 ， 使 用 k 近 邻 算法 构造 程序 ， 目 动 划分 电影 的 题材 类 
型 。 我 们 首先 使 用 电影 分 类 讲解 k 近 邻 算法 的 基本 概念 ， 然 后 学 习 如 何 
在 其 他 系统 上 使 用 k 近 邻 算法 。 


本 章 介绍 第 一 个 机 器 学 习 算法 : k 近 邻 算 法 ， 它 非常 有 效 而 且 易于 掌 
握 。 首 先 ， 我 们 将 探讨 k 近 邻 算 法 的 基本 理论 ， 以 及 如 何 使 用 距离 测量 
的 方法 分 类 物品 ;接着 ， 我 们 将 使 用 Python 从 文本 文件 中 导入 并 解析 数 
据 ， 然后 ， 本 书 讨论 了 当 存 在 许多 数据 来 源 时 ， 如 何 避 免 计算 距离 时 可 
能 碰 到 的 一 些 第 见 错 误 ; 最 后 ， 利 用 实际 的 例子 讲解 如 何 使 用 k 近 邻 算 
法 改进 约会 网 站 和 手写 数字 识别 系统 。 









































2.1 kk- 近邻 算法 概述 
简单 地 说 ，k 近 邻 算法 采用 测量 不 同 特征 值 之 间 的 距离 方法 进行 分 类 。 
k- 近 邻 算 法 


优点 : 精度 高 、 对 异常 值 不 敏感 、 无 数据 输入 假定 。 
和 适用 数据 范围 : 数值 型 和 
示 称 型 。 


本 书 讲解 的 第 一 个 机 器 学 习 算 法 是 k- 近 邻 算法 (kNN)， 它 的 工作 原理 

是 : 存在 一 个 样本 数据 集合 ， 也 称 作 训练 样本 集 ， 并 且 样 本 集中 每 个 数 
据 都 存在 标签 ， 即 我 们 知道 样本 集中 每 一 数据 与 所 属 分 类 的 对 应 关系 。 

输入 没有 标签 的 新 数据 后 ， 将 新 数据 的 每 个 特征 与 样本 集中 数据 对 应 的 
特征 进行 比较 ， 然 后 算法 提取 样本 集中 特征 最 相似 数据 《〈 最 近邻 ) 的 分 
类 标签 。 一 般 来 说 ， 我 们 只 选择 样本 数据 集中 前 k 个 最 相似 的 数据 ， 这 
就 是 k- 近 邻 算 法 中 K 的 出 处 ， 通 常 K 是 不 大 于 20 的 整数 。 最 后 ， 选 择 K 个 最 
相似 数据 中 出 现 次 数 最 多 的 分 类 ， 作 为 新 数据 的 分 类 。 


现在 我 们 回 到 前 面 电 影 分 类 的 例子 ， 使 用 k 近 邻 算 法 分 类 爱情 片 和 动作 
片 。 有 人 曾经 统计 过 很 多 电影 的 打斗 镜头 和 接吻 镜头 ， 图 2-1 显 示 了 6 部 
电影 的 打斗 和 接吻 镜头 数 。 假 如 有 一 部 未 看 过 的 电影 ， 如 何 确定 它 是 爱 
情 片 还 是 动作 片 呢 ? 我 们 可 以 使 用 kNN 来 解决 这 个 问题 。 


























California Man 
Hes Not Really into Dudes 
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湖 压 笑 泪 是 


的 Beautiful Woman 
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7 Kevin Longblade 


Robo Slayer 3000 
Amped | 





电影 中 出 现 的 打斗 镜头 次 数 


图 2-1 使 用 打斗 和 接吻 镜头 数 分 类 电影 


首先 我 们 需要 知道 这 个 未 知 电影 存在 多 少 个 打斗 镜头 和 接吻 镜头 ， 图 2- 
1 中 问号 位 置 是 该 未 知 电影 出 现 的 镜头 数 图 形 化 展示 ， 具 体 数 字 参 见 表 
2-1。 


表 2-1 每 部 电影 的 打斗 镜头 数 、 接 吻 镜 头 数 以 及 电影 评估 类 型 





电影 名 称 打斗 镜头 ”接吻 镜头 ”电影 类 型 
California Man 3 104 爱情 片 
He’s Not Really into Dudes 2 100 爱情 片 
Beautiful Woman "| 81 爱情 片 
Kevin Longblade 101 10 动作 片 
Robo Slayer 3000 99 5 动作 片 
ne ed ll 98 2 动作 片 


18 90 未 知 


即使 不 知道 未 知 电 景 属于 哪 种 类 型 ， 我 们 也 可 以 通过 某 种 方法 计算 出 
来 。 首 先 计 算 未 知 电影 与 样本 集中 其 他 电影 的 距离 ， 如 表 2-2 所 示 。 此 
处 暂时 不 要 关心 如 何 计 算得 到 这 些 距 离 值 ， 使 用 Python 实现 电影 分 类 应 
用 时 ， 会 提供 具体 的 计算 方法 。 


表 2-2 已 知 电 影 与 未 知 电影 的 距离 


电影 名 称 与 未 知 电影 的 距离 
California Man 20.5 
He’s Not Really into Dudes 18.7 
Beautiful Woman 192 











Kevin Longblade 5 
Robo Slayer 3000 117.4 
Amped ll 118.9 





现在 我 们 得 到 了 样本 集中 所 有 电影 与 未 知 电影 的 距离 ， 按 照 距离 递增 排 
序 ， 可 以 找到 k 个 距离 最 近 的 电影 。 假 定 k=3， 则 三 个 最 靠近 的 电影 依次 
是 He’s Not Really into Dudes、 Beautiful Woman 和 和 California Man。k 近 邻 
算法 按照 距离 最 近 的 三 部 电影 的 类 型 ， 决 定 未 知 电影 的 类 型 ， 而 这 三 部 
电影 全 是 爱情 片 ， 因 此 我 们 判定 未 知 电 影 是 爱情 片 。 


本 章 主 要 讲解 如 何在 实际 环境 中 应 用 k 近 邻 算 法 ， 同 时 涉及 如 何 使 用 
Python 工具 和 相关 的 机 器 学 习 术语 。 按 照 1.5 节 开发 机 器 学 习 应 用 的 通用 
0 
用 的 正确 性 。 


k 近 邻 算法 的 一 般 流 程 





. 收集 数据 : 可 以 使 用 任何 方法 。 

. 准备 数据 : 距离 计算 所 需要 的 数值 ， 最 好 是 结构 化 的 数据 格式 。 

. 分 析 数 据 : 可 以 使 用 任何 方法 。 

. 训练 算法 : 此 步骤 不 适用 于 k 近 邻 算 法 。 

. 测试 算法 : 计算 错误 率 。 

. 使 用 算法 : 首先 需要 输入 样本 数据 和 结构 化 的 输出 结果 ， 然 后 运行 
k 近 邻 算法 判定 输入 数据 分 别 属于 哪个 分 类 ， 最 后 应 用 对 计算 出 的 
分 类 执行 后 续 的 处 理 。 


2.1.1 准备 : 使 用 Python 导入 数据 


首先 ， 创 建 名 为 KNN.py 的 Python 模块 ， 本 章 使 用 的 所 有 代码 都 在 这 个 文 
件 中 。 读 者 可 以 按照 自己 的 习惯 学 习 代码 ， 既 可 以 按照 本 书 学 习 的 进 

度 ， 在 自己 创建 的 Python 文件 中 编写 代码 ， 也 可 以 直接 从 本 书 的 源 代码 
由 复制 NNN.py 广 件 。 我 推荐 该 者 从 头 开始 创建 模 岂 ， 按 照 学 习 的 进度 编 
写 代码 。 

无 论 大 家 采用 何 种 方法 ， 我 们 现在 已 经 有 了 kNN.py 文 件 。 在 构造 完整 的 
k 近 邻 算 法 之 前 ， 我 们 还 需要 编写 一 些 基本 的 通用 冰 数 ， 在 kNN.py 文 件 
中 增加 下 面 的 代码 ; 


from numpy import * 


四 UTC 请 





import operator 


def createDataSet ( ) : 


group = array([[i. 0,1.1],[1.0,1.0], [0,0],[90,0.1]]) 
labels = ['A','A','B','B'] 
return group, labels 


0 我 们 导入 了 两 个 模块 : 第 一 个 是 科学 计算 包 NumPy; 
第 二 个 是 运算 符 模块 ，k 近 人 ke 操作 时 将 使 用 这 个 模块 提供 
的 函 > 后 面 我 们 将 进一步 介绍 


为 了 方便 使 用 createDataset() 国 数 ， 它 创建 数据 集 和 标签 ， 如 图 2-1 所 
示 。 然 后 依次 执行 以 下 步骤 : 保存 kKNN.py 文 件 ， 改 变 当前 路 径 到 存储 

kNN.py 文 件 的 位 置 ， 打 开 Python 开 发 环境 。 无 论 是 Linux、Mac OS 还 是 
Windows 都 需要 打开 终端 ， 在 命令 提示 符 下 完成 上 述 操作 。 只 要 我 们 按 
照 默 认 配 置 安装 Python， 在 Linux/Mac OS 终 端 内 都 可 以 直接 输 
入 python， 而 在 Windows 命 令 提 示 符 下 需要 输 

入 c:NpPython2.6\python.exe， 进 入 Python 交互 式 开 发 环境 。 


进入 Python 开发 环境 之 后 ， 输 入 下 列 命令 导入 上 面 编辑 的 程序 模块 : 


>>> Import KkNN 








述 命 令 导 入 kNN 模 块 。 为 了 确保 输入 相同 的 数据 集 ， KNN 供 当中 定义 
图 数 createDataset， 在 Python 命令 提示 符 下 输入 下 属 命令 : 


>>> group, labels = kNN.createDataSet( ) 


壕 仙 命令 创建 了 变量 group 和 1labels， 在 Python 命 令 提 7 示 符 下 输入 下 列 命 
， 输 入 变量 的 名 字 以 检验 是 否 正确 地 定义 变量 : 


>>> group 
array([[ 1.，, 
[ 1.,，, 
[ 9., 
[ 0., 
>>> labels 
[L'A', 'A', 'B', 1 T 


这 里 有 4 组 数据 ， 每 组 数据 有 两 个 我 们 已 知 的 属性 或 者 特征 值 。 上 面 的 
group 矩 阵 每 行 包 含 一 个 不 同 的 数据 ， 我 们 可 以 把 它 想象 为 某 个 日 志文 





件 中 不 同 的 测量 点 或 者 入 口 。 由 于 人 类 大 脑 的 限制 ， 我 们 通常 只 能 可 视 
化 处 理 三 维 以 下 的 事务 。 因 此 为 了 简单 地 实现 数据 可 视 化 ， 对 于 每 个 数 
据点 我 们 通 肖 只 使 用 两 个 特征 。 


向 量 labels 包 含 了 每 个 数据 点 的 标签 信息 ，1labels 包 含 的 元 素 个 数 等 于 
group 和 矩阵 行 数 。 这 里 我 们 将 数据 点 (1 1.1) 定 义 为 类 A， 数 据点 (0, 0.1) 定 
义 为 类 B。 为 了 说 明 方便 ， 例 子 中 的 数值 是 任意 选择 的 ， 并 没有 给 出 轴 
标签 ， 图 2-2 是 带 有 类 标签 信息 的 四 个 数据 点 。 
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图 2-2 ”kk 近 邻 算法 : 带 有 4 个 数据 点 的 简单 例子 


现在 我 们 已 经 知道 Python 如 何 解析 数据 ， 如 何 加 载 数据 ， 以 及 KNN 算 法 
的 工作 原理 ， 接 下 来 我 们 将 使 用 这 些 方法 完成 分 类 任务 。 


2.1.2 ”实施 KNN 分 类 算法 








本 节 使 用 程序 清单 2-1 的 函数 运行 KNN 算 法 ， 为 每 组 数据 分 类 。 这 里 首 
先 给 出 k 近 邻 算法 的 伪 代 码 和 实际 的 Python 代码 ， 然 后 详细 地 解释 每 行 
代码 的 含义 。 该 函数 的 功能 是 使 用 k 近 邻 算法 将 每 组 数据 划分 到 某 个 类 
中 ， 其 伪 代 码 如 下 : 


Oe 的 数据 集中 的 每 个 点 依次 执行 以 下 操作 : 

， 计 算 已 知 类 别 数据 集中 的 点 与 当前 点 之 间 的 距离 ; 
按照 距离 递增 次 序 排序 ; 
选取 与 当前 点 距离 最 小 的 k 个 点 ; 

确定 前 k 个 点 所 在 类 别 的 出 现 频 率 ; 

返回 前 k 个 点 出 现 频 率 最 高 的 类 别 作 为 当前 点 的 预测 分 类 。 
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Python 函数 classify9() 如 程序 清单 2-1 所 示 。 
程序 清单 2-1 k 近 邻 算 法 


def classify0(inX, dataset, labels, k): 
dataSetSize = dataSet.shape[0] 
#@ (以 下 三 行 ) 距离 计算 
diffMat = tile(inX, (dataSetSize,1)) - dataset 
sqDiffMat = diffMat**2 
sqDistances = sqDiffMat.sum(axis=1) 
distances = sqDistances**0.5 
sortedDistIndicies = distances.argsort() 
classCount={} 
# 人 @ (以 下 两 行 ) 选 择 距离 最 小 的 k 个 点 
for i in range(k): 
voteIlabel = labels[sortedDistIndicies[i]] 
classCcount[voteIlabel|] = classCount.get(voteIlabel,0) + 1 
sortedClassCount = sorted(classCount.iteritems(), 
#@@ 排序 
key=operator.itemgetter(1), reverse=True) 
return sortedClassCount[0][9] 





classify9() 疯 数 有 4 个 输入 参数 ， 用 于 分 类 的 输入 回 量 是 imX， 输 入 的 
有 ee 标签 癌 量 为 labels， 最 后 的 参数 k 表 示 用 于 选择 

近邻 拓 的 数目 ， 其 中 标签 向 量 的 元 素数 目 和 和 矩阵 dataset 的 行 数 相 
同和 字 清 单 2- 1 使 用 欧 炙 氏 距离 公式 ， 计 算 两 个 回 量 点 xA 和 xB 之 间 的 距 
名: 














nt 


例如 ， 点 (0, 0) 与 (1, 2) 之 间 的 距离 计算 为 : 


(=F@=0 


人 





V(7 一 1 十 (6 一 0) 2 十 (9 一 0)2 十 (4 一 ” 








计算 完 所 有 点 之 间 的 距离 后 ， 可 以 对 数据 按照 从 小 到 大 的 次 序 排序 。 然 
后 ， 确 定 前 k 个 距离 最 小 元 素 所 在 的 主要 分 类 人 @， 输 入 k 总 是 正 整 数 ， 最 
后 ， 将 classCount 字 典 分 解 为 元 组 列表 ， 然 后 使 用 程序 第 二 行 导入 运算 
符 模 块 的 itemgetter 方 法 ， 按 照 第 二 个 元 素 的 次 序 对 元 组 进行 排序 ，。 
此 处 的 排序 为 逆序 ， 即 按照 从 最 大 到 最 小 次 序 排序 ， 最 后 返回 发 生 频 率 
最 高 的 元 素 标签 。 


为 了 预测 数据 所 在 分 类 ， 在 Python 提示 符 中 输入 下 列 命令 : 


>>> kNN.classifyo9([0,0]，group，Jlabels，3) 

















得 出 结 末 应 该 是 B， 大 家 也 可 以 改变 输入 [0，0] 为 其 他 值 ， 测 试 程序 的 运 


到 现在 为 止 ， 我 们 已 经 构造 了 第 一 个 分 类 器 ， 使 用 这 个 分 类 器 可 以 完成 
很 多 分 类 任务 。 从 这 个 实例 出 及 ， 构 造 使 用 分 类 算法 将 会 更 加 容易 。 


2.1.3 如何 测试 分 类 器 


上 文 我 们 已 经 使 用 k 近 邻 算法 构造 了 第 一 个 分 类 咒 ， 也 可 以 检验 分 类 天 
给 出 的 答案 是 否 符 合 我 们 的 预期 。 读 者 可 能 会 问 : “分 类 需 何 种 情况 下 
会 出 错 ? ?或 者 “答案 是 人 否 总 是 正确 的 ? ”答案 是 人 否定 的 ， 分 类 器 并 不 会 
得 到 百 分 百 正确 的 结果 ， 我 们 可 以 使 用 多 种 方法 检测 分 类 右 的 正确 紊 。 
此 外 分 类 器 的 性 能 也 会 受到 多 种 因 系 的 影响 ， 如 分 类 占 设 置 和 数据 集 

等 。 不 同 的 算法 在 不 同 数据 集 上 的 表现 可 能 完全 不 同 ， 这 也 是 本 部 分 的 
6 章 都 在 讨论 分 类 算法 的 原因 所 在 。 


为 了 测试 分 类 器 的 效果 ， 我 们 可 以 使 用 已 知 答案 的 数据 ， 当 然 答案 不 能 
告诉 分 类 器， 检验 分 类 器 给 出 的 结 采 是 否 符合 预期 结果 。 通 过 大 量 的 测 
试 数据 ， 我 们 可 以 得 到 分 类 器 的 错误 率 一 一 分 类 右 给 出 错误 结果 的 次 数 
除 以 测试 执行 的 总 数 。 错 误 率 是 第 用 的 评估 方法 ， 主 要 用 于 评估 分 类 器 
在 茶 个 数据 集 上 的 执行 效果 。 完 美 分 类 器 的 错误 率 为 0， 最 差分 类 器 的 























错误 率 是 1.0， 在 这 种 情况 下 ， 分 类 器 根本 承 无 法 找到 一 个 正确 答案 。 
读者 可 以 在 后 面 章 市 看 到 实际 的 数据 例子 。 


上 一 节 介 绍 的 例子 已 经 可 以 正常 运转 了 ， 但 是 并 没有 太 大 的 实际 用 处 ， 
本 章 的 后 两 节 将 在 现实 世界 中 使 用 k 近 邻 算法 。 首 先 ， 我 们 将 使 用 ki 严令 
算法 改进 约会 网 站 的 效果 ， 然 后 使 用 k 近 邻 算法 改进 手写 识别 系统 。 本 
书 将 使 用 手写 识别 系统 的 测试 程序 检测 k 近 邻 算法 的 效果 。 











2.2 示例 : 使 用 k 近 邻 算 法 改进 约会 网 站 
的 配对 效果 


结 ， 她 发 现 曾 交 往 过 三 种 类 型 的 人 : 


。 不 喜欢 的 人 
。 魅力 一 般 的 人 
。 极 具 魅 力 的 人 


尽管 发 现 了 上 述 规律 ， 但 海伦 依然 无 法 将 约会 网 站 推荐 的 匹配 对 象 归 入 
恰当 的 类 别 。 她 觉得 可 以 在 周一 到 周 五 约会 那些 魅力 一 般 的 人 ， 而 周末 
则 更 喜欢 与 那些 极 具 魅力 的 人 为 伴 。 海 伦 希望 我 们 的 分 类 软件 可 以 更 好 
地 帮助 她 将 匹配 对 象 划 分 到 确切 的 分 类 中 。 此 外 海伦 还 收集 了 一 些 约会 
网 站 未 曾 记 录 的 数据 信息 ， 她 认为 这 些 数据 更 有 助 于 匹配 对 象 的 归 类 。 


示例 : 在 约会 网 站 上 使 用 k 近 邻 算法 





. 收集 数据 : 提供 文本 文件 。 

. 准备 数据 : 使 用 Python 解析 文本 文件 。 

. 分析 数 据 : 使 用 Matplotlib 画 二 维 扩散 图 。 

. 训练 算法 : 此 步骤 不 适用 于 k 近 邻 算法 。 

. 测试 算法 : 使 用 海伦 提供 的 部 分 数据 作为 测试 样本 。 
测试 样本 和 非 测 试 样本 的 区 别 在 于 : 测试 样本 是 已 经 完成 分 类 的 数 
据 ， 如 果 预 测 分 类 与 实际 类 别 不 同 ， 则 标记 为 一 个 错误 。 

6. 使 用 算法 : 产生 简单 的 命令 行程 序 ， 然 后 海伦 可 以 输入 一 些 特征 数 

据 以 判断 对 方 是 否 为 自己 喜欢 的 类 型 。 


2.2.1 准备 数据 : 从 文本 文件 中 解析 数据 
海伦 收集 约会 数据 已 经 有 了 一 段 时 间 ， 她 把 这 些 数 据 存放 在 文本 文件 


datingTestSet.txt 中 ， 每 个 样本 数据 占据 一 行 ， 总 共有 1000 行 。 海 伦 的 样 
本 主要 包含 以 下 3 种 特征 : 


UI 人 ROD~ 


























。 每 年 获得 的 飞行 常客 里 程 数 
。 玩 视频 游戏 所 耗 时 间 百 分 比 
。 每 周 消费 的 冰 琪 淋 公升 数 


在 将 上 述 特 征 数据 输入 到 分 类 器 之 前 ， 必 须 将 待 处 理 数据 的 格式 改变 为 
分 类 器 可 以 接受 的 格式 。 在 kKNN.py 中 创建 名 为 file2matrix 的 函数 ， 以 
此 来 处 理 输入 格式 问题 。 该 函数 的 输入 为 文件 名 字符 串 ， 输 出 为 训练 样 
本 矩阵 和 类 标签 向 量 。 


将 下 面 的 代码 增加 到 kNN.py 中 。 
程序 清单 22 将 文本 记录 转换 到 Numpy 的 解析 程序 


def file2matrix(filename): 
fr = open(filename) 
array0lines=fr.readlines() 
numberofLines = len(array0lines) #@ 得 到 文件 行 数 
returnMat = zeros((numberofLines,3)) #@ ”创建 返回 的 Numpy 算 
classLabelVector = [] 
index = 0 
#@ (以 下 三 行 ) 解析 文件 数据 到 列表 
for line in arrayOlines: 
line = line.strip() 
listFromLine = line.split('\t') 
returnMat[index,:] = listFromLine[0:3 
classLabelVector.append(int(listFromLine[-1])) 
index += 1 
return returnMat,classLabelVector 








EE 

















从 上 面 的 代码 可 以 看 到 ，Python 处 理 文 本 文件 非常 容易 。 首 先 我 们 需要 
知道 文本 文件 包含 多 少 行 。 打 开 文 件 ， 得 到 文件 的 行 数 @。 人 然后 创建 以 
零 填 充 的 矩阵 NumPy@ 四 〈 实 际 上 ，NumPy 是 一 个 二 维 数组 ， 这 里 暂时 不 
用 考虑 其 用 途 ) 。 为 了 简化 处 理 ， 我 们 将 该 矩阵 的 另 一 维度 设置 为 固定 
值 3， 你 可 以 按照 自己 的 实际 需求 增加 相应 的 代码 以 适应 变化 的 输入 
值 。 循 环 处 理 文件 中 的 每 行 数据 全， 首先 使 用 函数 line.strip() 和 截取 掉 
所 有 的 回 车 字符 ， 然 后 使 用 tab 字 符 \t 将 上 一 步 得 到 的 整 行 数 据 分 割 成 一 
个 元 素 列 表 。 接 着 ， 我 们 选取 前 3 个 元 素 ， 将 它们 存储 到 特征 和 矩阵 中 。 
Python 语言 可 以 使 用 索引 值 -1 表示 列表 中 的 最 后 一 列 元 素 ， 利 用 这 种 负 
索引 ， 我 们 可 以 很 方便 地 将 列表 的 最 后 一 列 存储 到 向量 
classLabelvector 中 。 需 要 注意 的 是 ， 我 们 必须 明确 地 通知 解释 器 ， 告 
诉 它 列表 中 存储 的 元 素 值 为 整 型 ， 否 则 Python 语言 会 将 这 些 元 素 当 作 字 























符 串 处 理 。 以 前 我 们 必须 目 己 处 理 这 些 变 量 值 类 型 问题 ， 现 在 这 些 细 市 
问题 完全 可 以 交 给 NumPy 函 数 库 来 处 理 。 


在 Python 命令 提示 符 下 输入 下 面 命令 : 


>>> reload(KkNN) 
>>> datingDataMat, datingLabels = kNN.file2matrix('datingTestSet2.txt') 





使 用 函数 file2matrix 读 取 文 件数 据 ， 必 须 确 保 文 件 datingTestSet.txt 存 储 
在 我 们 的 工作 目录 中 。 此 外 在 执行 这 个 函数 之 前 ， 我 们 重新 加 载 了 
kNN.py 模 块 ， 以 确保 更 新 的 内 容 可 以 生效 ， 人 否则 Python 将 继续 使 用 上 次 
加 载 的 KNN 模 块 。 


成 功 导入 datingTestSet.txt 文 件 中 的 数据 之 后 ， 可 以 简单 检查 一 下 数据 内 
容 。Python 的 输出 结果 大 致 如 下 : 


>>> datingDataMat 
array([[ 7.29170000e+04， 7.10627300e+09, 2.23600000e-011]， 


1.42830000e+04, 2.44186700e+00, 1.90838000e-01], 
[ 7.34750000e+04, 8.31018900e+00, 8.52795000e-01], 
rp 
[ 1.24290000e+04, 4.43233100e+00, 9.24649000e-01], 
[ 2.52880000e+04, 1.31899030e+01, 1.05013800e+00], 
[ 4.91800000e+03, 3.01112400e+00, 1.90663000e-01]] ) 


>>> datingLabels[0:20] 
[3, 2, 1, 1, 1, 1, 3, 3, 1, 3, 1, 1, 2, 1, 1, 1, 1, 1, 2, 3] 





现在 已 经 从 文本 文件 中 导入 了 数据 ， 并 将 其 格式 化 为 想 要 的 格式 ， 接 着 

我 们 需要 了 解数 据 的 真实 含义 。 当 然 我 们 可 以 直接 浏览 文本 文件 ， 但 是 

这 种 方法 非常 不 友好 ， 一 般 来 说 ， 我 们 会 采用 图 形 化 的 方式 直观 地 展示 

ee 以 便 辩 识 出 一 些 数 
时 工 \o 


NumpPy 数 组 和 Python 数 组 


本 书 将 大 量 使 用 NumPy 数 组 ， 你 既 可 以 直接 在 Python 命令 行 环境 中 
输入 from numpy import array 将 其 导入 ， 也 可 以 通过 直接 导入 所 有 
NumPy 库 内 容 来 将 其 导入 。 由 于 NumPy 库 提供 的 数组 操作 并 不 文 持 
Python 目 融 的 数组 类 型 ， 因 此 在 编写 代码 时 要 注意 不 要 使 用 错误 的 
数组 类 型 。 








2.2.2 分 析 数 据 : 使 用 Matplotlib 创 建 散 点 图 


首先 我 们 使 用 Matplotlib 制 作 原始 数据 的 散 点 图 ， 在 Python 命 令 行 环 卉 
中 ， 输 入 下 列 命令 : 


>>> import matplotlib 

>>> import matplotlib.pyplot as pilt 
>>> fig = plt.figure() 

>>> ax = fig.add_ subplot(111) 


>>> ax.scatter(datingDataMat[:,1], datingDataMat[:,2]) 
>>> plt.show() 


输出 效果 如 图 2-3 所 示 。 散 点 图 使 用 datingDataMat 和 矩阵 的 第 二 、 第 三 列 
数据 ， 分 别 表示 特征 值 “ 玩 视频 游戏 所 耗 时 间 百 分 比 ”? 和 “每 周 所 消费 的 
冰淇淋 公升 数 ”。 
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图 2-3 ”没有 样本 类 别 标签 的 约会 数据 散 点 图 。 难 以 辨识 图 中 的 点 完 竟 
属于 哪个 样本 分 类 





由 于 没有 使 用 样本 分 类 的 特征 值 ， 我 们 很 难 从 图 2-3 中 看 到 任何 有 用 的 
数据 模式 信息 。 一 般 来 说 ， 我 们 会 采用 色彩 或 其 他 的 记号 来 标记 不 同样 
本 分 类 ， 以 便 更 好 地 理解 数据 信息 。Matplotlib 库 提供 的 scatter 函 数 支 
持 个 性 化 标记 散 点 图 上 的 点 。 重 新 输入 上 面 的 代码 ， 调 用 scatter 函 数 
时 使 用 下 列 参数 ; 


>>> ax.scatter(datingDataMat[:,1], datingDataMat[:,2], 
15.0*array(datingLabels), 15.0*array(datingLabels)) 








上 述 代码 利用 变量 datingLabels 存 储 的 类 标签 属性 ， 在 散 点 图 上 绘制 了 色 
彩 不 等 、 斥 才 不 同 的 点 。 你 可 以 看 到 一 个 与 图 2-3 类 似 的 散 点 图 。 从 图 2- 
3 中 ， 我 们 很 难看 到 任何 有 用 的 信息 ， 然 而 由 于 图 2-4 利 用 颜色 及 尺寸 标 
识 了 数据 点 的 属性 类 别 ， 因 而 我 们 基本 上 可 以 从 图 2-4 中 看 到 数据 点 所 
属 三 个 样本 分 类 的 区 域 轮廓 。 
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玩 视 频 游 戏 所 耗 时 间 百 分 比 


图 2-4 融 有 样本 分 类 标签 的 约会 数据 和 散 点 图 。 虽 然 能 够 比较 容易 地 区 
分 数据 点 从 属 类 别 ， 但 依然 很 难 根 据 这 张 图 得 出 结论 性 信息 


本 节 我 们 学 习 了 如 何 使 用 Matplotlib 库 图 形 化 展示 数据 ， 图 2-4 使 用 了 
datingDataMat 和 矩阵 的 第 二 和 第 三 列 属 性 来 展示 数据 ， 虽 然 也 可 以 区 分 ， 
但 图 2-5 采 用 和 矩阵 第 一 和 第 二 列 属性 却 可 以 得 到 更 好 的 展示 效果 ， 图 中 























清 呆 地 标识 了 三 个 不 同 的 样本 分 类 区 域 ， 具 有 不 同 爱好 的 人 其 类 别 敬 
不 同 。 
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每 年 获取 的 飞行 常客 里 程 数 
图 2-5 ”每 年 赢得 的 飞行 常客 里 程 数 与 玩 视 频 游戏 所 占 百分比 的 约会 数 
据 散 点 图 。 约 会 数据 有 三 个 特征 ， 通 过 图 中 展示 的 两 个 特征 更 容易 区 
分 数据 点 从 属 的 类 别 
2.2.3 ”准备 数据 : 归 一 化 数值 


表 2-3 给 出 了 提取 的 四 组 数据 ， 如 果 想 要 计算 样本 3 和 样本 4 之 间 的 距 
离 ， 可 以 使 用 下 面 的 方法 : 











(0-- 67)+(20 000-32 000) +(1.1-0.1) 





我 们 很 容易 发现 ， 上 面 方程 中 数字 差 值 最 大 的 属性 对 计算 结果 的 影响 最 
大 ， 也 束 是 说 ， 每 年 获取 的 飞行 常客 里 程 数 对 于 计算 结果 的 影响 将 远 远 
大 于 表 2-3 中 其 他 两 个 特征 一 一 玩 视频 游戏 的 和 每 周 消费 冰淇淋 公升 数 
一 一 的 影响 。 而 产生 这 种 现象 的 唯一 原因 ， 仅 仅 是 因为 飞行 常客 里 程 数 
远大 于 其 他 特征 值 。 但 海伦 认为 这 三 种 特征 是 同等 重要 的 ， 因 此 作为 三 
个 等 权重 的 特征 之 一 ， 飞 行 常客 里 程 数 并 不 应 该 如 此 严重 地 影响 到 计算 

















结果 。 
表 2-3 约会 网 站 原始 数据 改进 之 后 的 样本 数据 


玩 视频 游戏 所 耗 时 间 百 分 比 ”每 年 获得 的 飞行 常客 里 程 数 ”每 周 消费 的 冰淇淋 公升 数 ”样本 分 类 
1 0.8 400 0.5 
2 12 134 000 0.9 8 
3 0 20 000 1.1 2 
4 67 32 000 0.1 2 


在 处 理 这 种 不 同 取 值 范 围 的 特征 值 时 ， 我 们 通常 采用 的 方法 是 将 数值 归 
一 化 ， 如 将 取 值 范围 处 理 为 0 到 1 或 者 -1 到 1 之 间 。 下 面 的 公式 可 以 将 任 
意 取 值 范围 的 特征 值 转化 为 0 到 1 区 间 内 的 值 : 


newValue = (oldValue-min)/(max-min) 








其 中 min 和 max 分 别 是 数据 集中 的 最 小 特征 值 和 最 大 特征 值 。 虽 然 改 变数 
值 取 值 范 围 增 加 了 分 关口 的 复杂 上 度 ， 但 为 了 得 到 准确 结果 ， 我 们 必须 这 
样 做 。 我 们 需要 在 文件 KNN.py 中 增加 一 个 新 图 数 autoNorm( )， 该 函数 可 
以 目 动 将 数字 特征 值 转化 为 0 到 1 的 区 间 。 


程序 清单 2-3 ”提供 了 孙 数 autoNorm() 的 代码 。 
程序 清单 2-3” 归 一 化 特征 值 


def autoNorm(dataSet ) : 
minVals = dataSet .min(0) 
maxVals = dataSet .max(0) 
ranges = maxVals - minVals 
normDataSet = zeros(Sshape(dataSet ) ) 
m = dataSet ,shape[0] 
normDataSet = dataSet - tile(minVals, (m,1)) 
normDataSet = normDataSet/tile(ranges，(m1))  #@ 特征 值 相 除 
return normDatasSet, ranges, minVals 








在 函数 autoNorm() 中 ， 我 们 将 每 列 的 最 小 值 放 在 变量 minvals 中 ， 将 最 大 
值 放 在 变量 maxvals 中 ， 其 中 dataset .min(9) 中 的 参数 0 使 得 函数 可 以 从 
列 中 选取 最 小 值 ， 而 不 是 选取 当前 行 的 最 小 值 。 然 后 ， 函 数 计算 可 能 的 
取 值 范围 ， 并 创建 新 的 返回 和 矩阵。 正如 前 面 给 出 的 公式 ， 为 了 归 一 化 特 
征 值 ， 我 们 必须 使 用 当前 值 减 去 最 小 值 ， 然 后 除 以 取 值 范围 。 需 要 注意 
的 是 ， 特 征 值 矩阵 有 1000 x 3 个 值 ， 而 minvals 和 range 的 值 都 为 1 x 3。 
为 了 解决 这 个 问题 ， 我 们 使 用 NumPy 库 中 tile() 函 数 将 变量 内 容 复制 成 
输入 矩阵 同样 大 小 的 和 矩阵， 注意 这 是 具体 特征 值 相 除 @， 而 对 于 某 些 数 

















值 处 理 软 件 包 ，/ 可 能 意味 着 矩阵 除法 ， 但 在 NumPy 库 中 ， 和 矩阵 除法 需 
要 使 用 函数 Linalg.solve(matA,matB) 。 


在 Python 命令 提示 符 下 ， 重 新 加 载 XNN.py 模 块 ， 执 行 autoNorm 函 数 ， 检 
测 函 数 的 执行 结果 : 

>>> reload(KkNN) 

>>> normMat, ranges, minVals = kNN.autoNorm(datingDataMat) 

>>> normMat 

array([[ 0.33060119, 0.58918886, 0.69043973] ， 


[ 0.49199139, 0.50262471, 0.13468257], 
[ 0.34858782, 0.68886842, 0.59540619], 


i 
[ 0.93077422, 0.52696233, 0.58885466], 
[ 0.76626481, 0.44109859, 0.88192528], 
[ 0.0975718 ， 0.02096883, 0.02443895]]) 
>>> ranges 
array([ 8.78430000e+04, 2.02823930e+01, 1.69197100e+00]) 
>>> minVals 
array([ 0， 2 0 ， 0.001818]) 


这 里 我 们 也 可 以 只 返回 normMat 和 矩阵 ， 但 是 下 一 节 我 们 将 需要 取 值 范围 
和 最 小 值 归 一 化 测试 数据 。 


2.2.4 测试 算法 : 作为 完整 程序 验证 分 类 副 


上 市 我 们 已 经 将 数据 按照 需求 做 了 处 理 ， 本 节 我 们 将 测试 分 类 右 的 效 
果 ， 如 果 分 类 器 的 正确 率 满 足 要 求 ， 海 伦 就 可 以 使 用 这 个 软件 来 处 理 约 
会 网 站 提供 的 约会 名 单 了 。 机 器 学 习 算法 一 个 很 重要 的 工作 束 是 评估 算 
法 的 正确 紊 ， 通 第 我 们 只 提供 已 有 数 据 的 90% 作 为 训练 样本 来 训练 分 类 
需 ， 而 使 用 其 余 的 10% 数 据 去 测试 分 类 器 ， 检 训 分 类 喜 的 正确 率 。 本 书 
后 续 章 节 还 会 介绍 一 些 高 级 方法 完成 同样 的 任务 ， 这 里 我 们 还 是 采用 最 
原始 的 做 法 。 需 要 注意 的 是 ，109% 的 测试 数据 应 该 是 随机 选择 的 ， 由 于 
海伦 提供 的 数据 并 没有 按照 特定 目的 来 排序 ， 所 以 我 们 可 以 随意 选择 
10% 数 据 而 不 影响 其 随机 性 。 


前 面 我 们 已 经 提 到 可 以 使 用 错误 率 来 检测 分 类 堪 的 性 能 。 对 于 分 类 右 来 
说 ， 错 误 率 就 是 分 类 器 给 出 错误 结果 的 次 数 除 以 测试 数据 的 总 数 ， 完 美 
分 类 占 的 错误 率 为 0， 而 错误 率 为 1.0 的 分 类 占 不 会 给 出 任何 正确 的 分 类 
结果 。 代 码 里 我 们 定义 一 个 计数 絮 变 量 ， 每 次 分 类 右 错 误 地 分 类 数据 ， 
0 0 0 3 0 
误 率 。 














为 了 测试 分 类 器 效果 ， 在 kNN.py 文 件 中 创建 函数 datingclassTest， 该 
函数 是 自 包 含 的 ， 你 可 以 在 任何 时 候 在 Python 运行 环境 中 使 用 该 函数 测 
试 分 类 器 效果 。 在 KNN.py 文 件 中 输入 下 面 的 程序 代码 。 


程序 清单 2-4 分 类 器 针对 约会 网 站 的 测试 代码 


def datingClassTest(): 
hoRatio = 0.10 
datingDataMat, datingLabels = file2matrix('datingTestSet ,txt ') 
normMat，ranges，minvals = autoNorm(datingDataMat ) 
m = normMat .shape[0] 
numTestVecs = int(m*hoRatio) 
errorCount = 0.0 
for i in range(numTestVecs): 
classifierResult = classifyO(normMat[i,:],normMat[numTestVecs:m,:],\ 
datingLabels[numTestVecs:m],3) 
print "the classifier came back with: %d, the real answer is: %d"\ 
% (classifierResult, datingLabels[i]) 
If (classifierResult != datingLabels[i]): errorCount += 1.0 
print "the total error rate is: %f" % (errorCount/float(numTestVecs)) 





函数 datingclassTest 如 程序 清单 2.4 所 示 ， 它 首先 使 用 了 file2matrix 和 
autoNorm( ) 了 水 数 从 文件 中 读 取 数据 并 将 其 转换 为 归 一 化 特征 值 。 接 着 计 
算 测 斌 向量 的 数量 ， 此 步 决定 了 normMat 向 量 中 哪些 数据 用 于 测试 ， 哪 
些 数据 用 于 分 类 器 的 训练 样本 ; 然后 将 这 两 部 分 数据 输入 到 原始 kNN 分 
类 器 函数 classify6。 最 后 ， 函 数 计 算 错 误 率 并 输出 结果 。 注 意 此 处 我 
们 使 用 原始 分 类 器 ， 本 章 人 花费 了 大 量 的 篇 幅 在 讲解 如 何 处 理 数 据 ， 如 何 
将 数据 改造 为 分 类 器 可 以 使 用 的 特征 值 。 得 到 可 靠 的 数据 同样 章 要 ， 本 
书后 续 的 章节 将 介绍 这 个 主题 。 


在 Python 命令 提示 符 下 重新 加 载 KNN 模 块 ， 并 输 
入 kNN.datingclassTest()， 执 行 分 类 器 测试 程序 ， 我 们 将 得 到 下 面 的 输 
出 结 

>>> kNN.datingClassTest() 


the classifier came back with: 1, the real answer is: 1 
the classifier came back with: 2, the real answer is: 2 





the classifier came back with: 
the classifier came back with: 
the classifier came back with: 
the classifier came back with: 
the classifier came back with: 
the total error rate is: 0.0240 


,; the real answer is: 
the real answer is: 
the real answer is: 
the real answer is: 
; the real answer is: 
0 
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~ ~ 


1 
2 
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分 类 器 处 理 约会 数据 集 的 错误 率 是 2.4%， 这 是 一 个 相当 不 错 的 结果 。 我 
们 可 以 改变 函数 datingclassTest 内 变量 hoRatio 和 变量 k 的 值 ， 检 测 错误 
率 是 否 随 看 变量 值 的 变化 而 增加 。 依 赖 于 分 类 算法 、 数 据 集 和 程序 设 
置 ， 分 类 器 的 输出 结果 可 能 有 很 大 的 不 同 。 


这 个 例子 表明 我 们 可 以 正确 地 预测 分 类 ， 错 误 率 仅仅 是 2.4%。 海 伦 完全 
可 以 输入 未 知 对 象 的 属性 信息 ， 由 分 类 软件 来 帮助 她 判定 茶 一 对 象 的 可 
交往 程度 : 讨厌 、 一 般 喜 欢 、 非 常 喜欢 。 


2.2.5 ”使 用 算法 : 构建 完整 可 用 系统 


上 面 我 们 已 经 在 数据 上 对 分 类 器 进行 了 测试 ， 现 在 终于 可 以 使 用 这 个 分 
类 融 为 海伦 来 对 人 们 分 类 。 我 们 会 给 海伦 一 小 段 程序 ， 通 过 该 程序 海伦 
会 在 约会 网 站 上 找到 某 个 人 并 输入 他 的 信息 。 程 序 会 给 出 她 对 对 方 喜欢 
程度 的 预测 值 。 


将 下 列 代码 加 入 到 kNN.py 并 重新 载 入 NN。 
程序 清单 25 约会 网 站 预测 函数 


def classifyPerson(): 
resultList = ['not at all','in small doses', 'in large doses'] 
percentTats = float(raw_input(\ 

"percentage of time spent playing video games?")) 
ffMiles = float(raw_ input("frequent flier miles earned per year?")) 
iceCream = float(raw_ input("liters of ice cream consumed per year?")) 
datingDataMat,datingLabels = file2matrix('datingTestSet2.txt') 
normMat, ranges, minVals = autoNorm(datingDataMat) 
inArr = array([ffMiles, percentTats, iceCream]) 
classifierResult = classify0((inArr-\ 

minVals)/ranges,normMat, datingLabels, 3) 
print "You will probably like this person: "AN 
resultList[classifierResult - 1] 














上 述 程序 清单 中 的 大 部 分 代码 我 们 在 前 面 都 见 过 。 唯 一 新 加 入 的 代码 是 
国 数 raw_input()。 该 冰 数 允许 用 户 和 输入 文本 行 命令 并 返回 用 户 所 输入 
的 内 容 。 为 了 解 程序 的 实际 运行 效果 ， 输 入 如 下 命令 : 


>>> KkNN.classifyPerson() 

percentage of time spent playing video games?10 
frequent flier miles earned per year?10000 

liters of ice cream consumed per year?0.5 

You will probably like this person: in small doses 


目前 为 止 ， 我 们 已 经 看 到 如 何在 数据 上 构建 分 类 器 。 这 里 所 有 的 数据 让 

人 看 起 来 都 很 容易 ， 但 是 如 何在 人 不 太 容 易 看 懂 的 数据 上 使 用 分 类 器 

从 下 一 市 的 例子 中 ， 我 们 会 看 到 如 何在 三 进 制 存储 的 图 像 数 据 上 使 
kNN 。 


2.3 不 例 ; 手写 识别 系统 


本 节 我 们 一 步 步 地 构造 使 用 k 近 邻 分 类 器 的 手写 识别 系统 。 为 了 简单 起 

见 ， 这 里 构造 的 系统 只 能 识别 数字 0 到 9， 参 见 图 2-6。 需 要 识别 的 数字 

己 经 使 用 图 形 处 理 软件 ， 处 理 成 具有 相同 的 色彩 和 大 小 ': 宽 高 是 32 像 
素 x32 像 系 的 黑白 图 像 。 尽 管 采 用 文本 格式 存储 图 像 不 能 有 效 地 利用 内 

存 空间 ， 但 是 为 了 方便 理解 ， 我 们 还 是 将 图 像 转换 为 文本 格式 。 


示例 : 使 用 k- 近 邻 算法 的 手写 识别 系统 


1. 收集 数据 : 提供 文本 文件 。 

2. 准备 数据 : 编写 函数 classifyg()， 将 图 像 格式 转换 为 分 类 塔 使 用 
的 list 格 式 。 

3. 分 析 数 据 : 在 Python 命令 提示 符 中 检查 数据 ， 确 保 它 符合 要 求 。 

4. 训练 算法 : 此 步骤 不 适用 于 k 近 邻 算 法 。 

5. 测试 算法 : 编写 函数 使 用 提供 的 部 分 数据 集 作为 测试 样本 ， 测 试 样 
本 与 非 测 试 样本 的 区 别 在 于 测试 样本 是 已 经 完成 分 类 的 数据 ， 如 果 
预测 分 类 与 实际 类 别 不 同 ， 则 标记 为 一 个 错误 。 

6. 使 用 算法 : 本 例 没 有 完成 此 步骤 ， 知 你 感 兴 趣 可 以 构建 完整 的 应 用 
程序 ， 从 图 像 中 提取 数字 ， 并 完成 数字 识别 ， 美 国 的 邮件 分 拣 系 统 
就 是 一 个 实际 运行 的 类 似 系统 。 

















1. 该 数据 集合 修改 自 "手写 数字 数据 集 的 光学 识别 "一 文中 的 数据 集合 ， 该 文登 载 于 2010 年 10 月 3 日 的 UCI 机 器 学 习 资 料 库 中 http://archive.ics.uci.edu/ml。 作 者 是 土耳其 伊斯坦布尔 海峡 


2.3.1 准备 数据 : 将 图 像 转换 为 测试 问 量 


实际 图 像 存 储 在 第 2 章 源 代码 的 两 个 子 目 录 内 : 目录 trainingDigits 中 包含 
了 大 约 2000 个 例子 ， 每 个 例子 的 内 容 如 图 2-6 所 示 ， 每 个 数字 大 约 有 200 
个 样本 ; 目录 testDigits 中 包含 了 大 约 900 个 测试 数据 。 我 们 使 用 目录 
trainingDigits 中 的 数据 训练 分 类 器 ， 使 用 目录 testDigits 中 的 数据 测试 分 
类 器 的 效果 。 两 组 数据 没有 重 阁 ， 你 可 以 检查 一 下 这 些 文件 夹 的 文件 是 


人 太 夺 人 “位 
否 符 合 要 求 。 
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图 2-6 手写 数字 数据 集 的 例子 


为 了 使 用 前 面 两 个 例子 的 分 类 器 ， 我 们 必须 将 图 像 格式 化 处 理 为 一 个 回 
量 。 我 们 将 把 一 个 32x32 的 二 进 制图 像 窍 阵 转换 为 1xX1024 的 癌 量 ， 这 样 
前 两 节 使 用 的 分 类 器 就 可 以 处 理 数字 图 像 信 息 了 。 


我 们 首先 编写 一 段 函 数 img2vector， 将 图 像 转换 为 向 量 : 该 函数 创建 
1x1024 的 NumPy 数 组 ， 然 后 打开 给 定 的 文件 ， 循 环 读 出 文件 的 前 32 行 ， 
并 将 每 行 的 头 32 个 字符 值 存 储 在 NumPy 数 组 中 ， 最 后 返回 数组 。 


def img2vector(filename ) : 

returnVect = zeros((1,1024)) 
fr = open(filename) 
for i in range(32): 

linestr = fr.readline() 

for j in range(32): 

returnVect[0,32*i+j] = int(lineStr[j]) 

return returnVect 





将 上 述 代码 输入 到 kNN.py 文 件 中 ， 在 Python 命 令 行 中 输入 下 列 命令 测试 
img2vector 函 数 ， 然 后 与 文本 编辑 器 打开 的 文件 进行 比较 : 


>>> testVector = kNN.img2vector('testDigits/0_ 13 .txt') 
>>> testVector[0,0:31] 
array([ 9., 0., 0. , 5 5 i i 

0., 1., 1., 1., 1., 0., 0., 0., 0., 9.， 0., 


0., 0., 0., 0., 0.]) 
>>> testVector[0,32:63] 


array([ 9., 0., 0.， 0., 0., 0., 0., 0., 0.， 0., 0.， 
1., Ls js i A 0., 0., 0., 0., 0., 
0., 0., 0., 0., 0.]) 





2.3.2 ”测试 算法 : 使 用 k 和 近邻 算 法 识别 手写 数字 


上 节 我 们 已 经 将 数据 处 理 成 分 类 器 可 以 识别 的 格式 ， 本 节 我 们 将 这 些 数 
据 输 入 到 分 类 器 ， 检 测 分 类 器 的 执行 效果 。 程 序 清单 2-6 所 示 的 自 包 含 

函数 handwritingclassTest() 是 测试 分 类 器 的 代码 ， 将 其 写 入 kNN.py 文 
件 中 。 在 写 入 这 些 代 码 之 前 ， 我 们 必须 确保 将 from os import listdir 
写 入 文件 的 起 始 部 分 ， 这 段 代 码 的 主要 功能 是 从 os 模块 中 导入 函 

数 listdir， 它 可 以 列 出 给 定 目录 的 文件 名 。 


程序 清单 2-6 手写 数字 识别 系统 的 测试 代码 


def handwritingClassTest(): 
hwLabels = [] 
trainingFileList = listdir('trainingDigits') #@ 获取 目录 内 容 
m = len(trainingFileList) 
trainingMat = zeros((m,1024)) 
for i in range(m): 
# 人 @ (以 下 三 行 ) 从 文件 名 解析 分 类 数字 
fileNameStr = trainingFileList[i] 
filestr = fileNameStr.split('.')[90] 
classNumStr = int(fileStr.split('_')[0]) 
hwLabels.append(classNumStr) 
trainingMat[i,:] = img2vector('trainingDigits/%s' % fileNameStr) 
testFileList = listdir('testDigits') 
errorCount = 0.0 
mTest = len(testFileList) 
for i in range(mTest): 
fileNameStr = testFileList[i] 
filestr = fileNameStr.split('.')[90] 
classNumStr = int(fileStr.split('_')[0]) 
vectorUnderTest = img2vector('testDigits/%s' % fileNameStr) 
classifierResult = classifyO(vectorUnderTest, trainingMat, hwLabels, 3) 
print "the classifier came back with: %d, the real answer is: %d"\% (clas 
If (classifierResult != classNumStr): errorCount += 1.0 
print "\nthe total number of errors is: %d" % errorCount 
print "\nthe total error rate is: %f" % (errorCount/float(mTest)) 








在 程序 清单 2-6 中 ， 将 trainingDigits 目 录 中 的 文件 内 容 存储 在 列表 中 人 @@， 
然后 可 以 得 到 目录 中 有 多 少 文件 ， 并 将 其 存储 在 变量 m 中 。 接 着 ， 代 码 
创建 一 个 m 行 1024 列 的 训练 矩阵 ， 访 矩阵 的 每 行 数据 存储 一 个 图 像 。 我 
们 可 以 从 文件 名 中 解析 出 分 类 数字 仿 。 该 目录 下 的 文件 按照 规则 命名 ， 














如 文件 9_45.txt 的 分 类 是 9， 它 是 数字 9 的 第 45 个 实例 。 然 后 我 们 可 以 将 
类 代码 存储 在 hwLabels 同 量 中 ， 使 用 前 面 讨论 的 jmg2vector 函 数 载 入 图 
像 。 在 下 一 步 中 ， 我 们 对 testDigits 目 录 中 的 文件 执行 相似 的 操作 ， 不 同 
之 处 是 我 们 并 不 将 这 个 目录 下 的 文件 载 入 矩阵 中 ， 而 是 使 

用 classifyg() 函 数 测试 该 目录 下 的 每 个 文件 。 由 于 文件 中 的 值 已 经 在 0 
和 1 之 间 ， 本 节 并 不 需要 使 用 2.2 节 的 autoNorm() 函 数 。 


在 Python 命 令 提 示 符 中 输入 kNN.handwritingclassTest()， 测 试 该 函数 
的 输出 结果 。 依 赖 于 机 器 速度 ， 加 载 数据 集 可 能 需要 伦 缆 很 长 时 间 ， 然 
后 浮 数 开 始 依 次 测试 每 个 文件 ， 输 出 结果 如 下 所 示 : 

>>> kNN.handwritingClassTest() 


the classifier came back with: 0, the real answer is: 0 
the classifier came back with: 0, the real answer is: 0 








the real answer is: 
the real answer is: 
the real answer is: 
the real answer is: 
the real answer is: 
the real answer is: 


the classifier came back with: 
the classifier came back with: 
the classifier came back with: 
the classifier came back with: 
the classifier came back with: 
the classifier came back with: 


co co 0 0 ~ 人 


the classifier came back with: 9，the real answer is: 9 
the total number of errors is: 11 
the total error rate is: 0.011628 


k 近 领 算法 识别 手写 数字 数据 集 ， 错 误 率 为 1.2%。 改 变 变量 k 的 值 、 修 改 
函数 handwritingclassTest 随 机 选取 训练 样本 、 改 变 训 练 样本 的 数目 ， 
都 会 对 k 近 邻 算法 的 错误 率 产 生 影 响 ， 感 兴趣 的 话 可 以 改变 这 些 变 量 
值 ， 观 察 错误 率 的 变化 。 


实际 使 用 这 个 算法 时 ， 算 法 的 执行 效率 并 不 高 。 因 为 算法 需要 为 每 个 测 
试问 量 做 2000 次 距离 计算 ， 每 个 距离 计算 包括 了 1024 个 维度 浮 点 运算 ， 
忆 计 要 执行 900 次 ， 此 外 ， 我 们 还 需要 为 测试 同 量 准备 2MB 的 存储 空 
间 。 是 否 存在 一 种 算法 减少 存储 空间 和 计算 时 间 的 开销 呢 ? k 决 策 树 惑 
征 k 近 邻 算法 的 优化 版 ， 可 以 节省 大 量 的 计算 开销 。 

















2.4 ”本 章 小 绽 


k 近 邻 算 法 是 分 类 数据 最 简单 最 有 效 的 算法 ， 本 章 通过 两 个 例子 讲述 了 
如 何 使 用 k 近 邻 算法 构造 分 类 器 。k 近 邻 算法 是 基于 实例 的 学 习 ， 使 用 算 
法 时 我 们 必须 有 接近 实际 数据 的 训练 样本 数据 。k 近 邻 算 法 必须 保存 全 
部 数据 集 ， 如 果 训 练 数据 集 的 很 大 ， 必 须 使 用 大 量 的 存储 空间 。 此 外 ， 

人 

时 。 


K 近 邻 算法 的 另 一 个 缺陷 是 它 无 法 给 出 任何 数据 的 基础 结构 信息 ， 因 此 
我 们 也 无 法 知晓 平均 实例 样本 和 典型 实例 样本 具有 什么 特征 。 下 一 章 我 
们 将 使 用 概率 测量 方法 处 理 分 类 问题 ， 该 算法 可 以 解决 这 个 问题 。 

















第 3 章 ” 决 东 树 
本 章 内 容 


。 决策 树 简 介 

。 在 数据 集中 度量 一 致 性 

。 使 用 递归 构造 决策 树 

。 使 用 Matplotlib 绘 制 树 形 图 


你 是 否 玩 过 二 十 个 问题 的 游戏 ， 游 戏 的 规则 很 简单 ， 参 与 游戏 的 一 方 在 
脑海 里 想 茶 个 事物 ， 其 他 参与 者 问 他 提问 题 ， 只 人 允许 提 20 个 问题 ， 问 题 
的 答案 也 只 能 用 对 或 错 回 答 。 问 问题 的 人 通过 推断 分 解 ， 逐 步 缩 小 竺 狂 
测 事 物 的 范围 。 决 策 树 的 工作 原理 与 20 个 问题 类 似 ， 用 户 输入 一 系列 数 
据 ， 然 后 给 出 游戏 的 答案 。 


我 们 经 常 使 用 决策 树 处 理 分 类 问题 ， 近 来 的 调查 表明 决策 树 也 是 最 经 常 
使 用 的 数据 挖掘 算法 。 不 需要 了 解 机 需 学 习 的 知识 ， 就 能 搞 明 日 决策 
树 是 如 何 工 作 的 。 


1. Giovanni Seni and John Elder, Ensemble Methods in Data Mining: Improving Accuracy Through Combining Predictins, Synthesis Lectures on Data Mining and Knowledge Discovery 
(Morgan and Claypool, 2010), 28. 





如 果 你 以 前 没有 接触 过 决策 树 ， 完 全 不 用 担心 ， 它 的 概念 非常 简单 。 即 
使 不 知道 它 也 可 以 通过 简单 的 图 形 了 解 其 工作 原理 ， 图 3-1 所 示 的 流程 
图 惑 是 一 个 决策 树 ， 长 方形 代表 判断 模块 〈decision block) ， 椭 圆 形 代 
表 终 止 模块 (terminating block) ， 表 示 已 经 得 出 结论 ， 可 以 终止 运行 。 
从 判断 模块 引出 的 左右 箭头 称 作 分 文 (branch) ， 它 可 以 到 达 另 一 个 判 
斯 模块 或 者 终止 模块 。 图 3-1 构 造 了 一 个 假想 的 邮件 分 类 系统 ， 它 首先 
检测 发 送 邮件 域名 地 址 。 如 果 地 址 为 myEmployer.com， 则 将 其 放 在 分 
类 “无 聊 时 需要 阅读 的 邮件 * 中 。 如 果 邮 件 不 是 来 自 这 个 域名 ， 则 检查 邮 
件 内 容 里 是 否 包 含 单 词曲 棍 球 ， 如 果 包 含 则 将 邮件 归 类 到 “需要 及 时 处 
理 的 朋友 邮件 ?>， 如 果 不 包 含 则 将 邮件 归 类 到 “无 需 阅 读 的 垃圾 邮件 ”。 











发 送 邮件 域名 地 址 为 : 


myEmployer.com 







无 聊 时 需要 包含 单词 “ 曲 棍 
阅读 的 邮件 球 ” 的 邮件 






需要 及 时 处 理 的 
朋友 邮件 






无 需 阅 读 的 
垃圾 邮件 


图 3-1 流程 图 形式 的 决策 树 


第 2 章 介 绍 的 /近邻 算法 可 以 很 好 地 完成 分 类 任务 ， 但 是 它 最 大 的 缺点 
2 
容易 理解 。 


本 章 构 造 的 决 集 树 算 法 能 够 读 取 数据 集合 ， 构 建 类 似 于 图 3-1 的 决 集 
树 。 决 策 树 的 一 个 重要 任务 是 为 了 数据 中 所 强 含 的 知识 信息 ， 因 此 决 集 
树 可 以 使 用 不 见 悉 的 数据 集合 ， 并 从 中 提取 出 一 系列 规则 ， 在 这 些 机 器 
根据 数据 创建 规则 时 ， 就 是 机 喜 学 习 的 过 程 。 专 家 系统 中 经 名 使 用 决策 
树 ， 而 且 决 朱 树 给 出 结果 往往 可 以 匹敌 在 当前 领域 具有 几 十 年 工作 经 验 
的 人 类 专家 。 


现在 我 们 已 经 大 致 了 解 了 决策 树 可 以 完成 哪些 任务 ， 接 下 来 我 们 将 学 习 
如 何 从 一 堆 原 始 数据 中 构造 决策 树 。 衣 先 我 们 讨论 构造 决策 树 的 方法 ， 
以 及 如 何 编写 构造 树 的 Python 代 人 码 ， 接 着 提出 一 些 度 量 算法 成 功率 的 方 
法 ;最 后 使 用 递归 建立 分 类 器 ， 并 且 使 用 Matplotlib 绘 制 决策 树 图 。 构 
造 完成 决策 树 分 类 器 之 后 ， 我 们 将 输入 一 些 隐形 眼镜 的 处 方 数据 ， 并 由 
决策 树 分 类 融 预 训 需 要 的 镜片 类 型 。 











3.1 决 休 树 的 构造 
决策 机 


优点 : 计算 复杂 度 不 高 ， 输 出 结果 易于 理解 ， 对 中 间 值 的 缺失 不 敏 
感 ， 可 以 处 理 不 相关 特征 数据 。 
缺点 : 可 能 会 产生 过 上 度 匹 配 问 题 。 
适用 数据 类 型 : 数值 型 和 标 称 型 。 


本 节 将 一 步 步 地 构造 决策 树 ， 并 会 涉及 许多 有 趣 的 细节 。 首 先 我 们 讨论 
数学 上 如 何 使 用 信息 论 划 分 数据 集 ， 然 后 编写 代码 将 理论 应 用 到 具体 的 
数据 集 上 ， 最 后 编写 代码 构建 决策 树 。 


在 构造 决策 树 时 ， 我 们 需要 解决 的 第 一 个 问题 就 是 ， 当 前 数据 集 上 哪个 
特征 在 划分 数据 分 类 时 起 决定 性 作用 。 为 了 找到 决定 性 的 特征 ， 划 分 出 
最 好 的 结果 ， 我 们 必须 评估 每 个 特征 。 完 成 测试 之 后 ， 原 始 数据 集 就 被 
划分 为 几 个 数据 子 集 。 这 些 数 据 子 集会 分 布 在 第 一 个 决策 点 的 所 有 分 文 
上 。 如 果 菏 个 分 文 下 的 数据 属于 同一 类 型 ， 则 当前 无 需 阅读 的 垃圾 邮件 
己 经 正确 地 划分 数据 分 类 ， 无 需 进一步 对 数据 集 进行 分 割 。 如 果 数 据 子 
集 内 的 数据 不 属于 同一 类 型 ， 则 需要 重复 划分 数据 子 集 的 过 程 。 如 何 划 
分 数据 子 集 的 算法 和 划分 原始 数据 集 的 方法 相同 ， 和 直到 所 有 上 其 有 相同 类 
型 的 数据 均 在 一 个 数据 子 集 内 。 


创建 分 文 的 伪 代 人 码 函 数 createBranch( ) 如 下 所 示 : 


检测 数据 集中 的 每 个 子 项 是 否 属于 同一 分 类 : 
If so return 类 标签 ; 
Else 
































寻找 划分 数据 集 的 最 好 特征 
划分 数据 集 
创建 分 支 节点 

for 每 个 划分 的 子 集 
调用 函数 createBranch 并 增加 返回 结果 到 分 支 节 点 中 
return 分 支 节 点 






































i 








上 面 的 伪 代 码 createBranch 是 一 个 递归 函数 ， 在 倒数 第 二 行 卫 接 调 用 了 
它 目 己 。 后 面 我 们 将 把 上 面 的 伪 代 码 转 换 为 Python 代 码 ， 这 里 我 们 需要 
进一步 了 解 算法 是 如 何 划 分 数据 集 的 。 


决 倘 树 的 一 般 流程 


1. 收集 数据 : 可 以 使 用 任何 方法 。 
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离散 化 。 

3. 分 析 数 据 : 可 以 使 用 任何 方法 ， 构 造 树 完 成 之 后 ， 我 们 应 该 检查 图 
形 是 否 符合 预期 。 

4. 训练 算法 : 构造 树 的 数据 结构 。 

5. 测试 算法 : 使 用 经 验 树 计算 错误 率 。 

6. 使 用 算法 : 此 步骤 可 以 适用 于 任何 监督 学 习 算 法 ， 而 使 用 决策 树 可 
以 更 好 地 理解 数据 的 内 在 含义 。 


一 些 决 策 树 算法 采用 二 分 法 划分 数据 ， 本 书 并 不 采用 这 种 方法 。 如 果 依 
据 某 个 属性 划分 数据 将 会 产生 4 个 可 能 的 值 ， 我 们 将 把 数据 划分 成 四 
块 ， 并 创建 四 个 不 同 的 分 文 。 本 书 将 使 用 ID3 算 法 划分 数据 集 ， 该 算法 
处 理 如 何 划 分 数据 集 ， 何 时 停止 划分 数据 集 ( 进 一 步 的 信息 可 以 参见 
http://en.wikipedia.org/wiki/ID3_algorithm) 。 每 次 划分 数据 集 时 我 们 只 
选取 一 个 特征 属性 ， 如 果 训 练 集中 存在 20 个 特征 ， 第 一 次 我 们 选择 哪个 
特征 作为 划分 的 参考 属性 呢 ? 


表 3-1 的 数据 包含 5 个 海洋 动物 ， 特 征 包 括 : 不 译 出 水 面 是 否 可 以 生存 ， 
以 及 是 否 有 脚 忠 。 我 们 可 以 将 这 些 动物 分 成 两 类 : 鱼 类 和 非 鱼 类 。 现 在 
我 们 想 要 决定 依据 第 一 个 特征 还 是 第 二 个 特征 划分 数据 。 在 回答 这 个 问 
题 之 前 ， 我 们 必须 采用 量化 的 方法 判断 如 何 划 分 数据 。 下 一 人 小节 将 详细 
讨论 这 个 问题 。 


表 3-1 海洋 生物 数据 
不 浮 出 水 面 是 否 可 以 生存 ”是否 有 脚 忠 属于 鱼 类 


1 是 是 是 














是 是 
3 是 
否 是 
否 是 


东区 区 洪 


3.1.1 信息 增益 


划分 数据 集 的 大 原则 是 : 将 无 序 的 数据 变 得 更 加 有 序 。 我 们 可 以 使 用 多 
种 方法 划分 数据 集 ， 但 是 每 种 方法 都 有 各 目的 优 缺 点 。 组 织 杂 乱 无 章 数 
据 的 一 种 方法 就 是 使 用 信息 论 度量 信息 ， 信 息 论 是 量化 处 理 信息 的 分 支 




















科学 。 我 们 可 以 在 划分 数据 前 后 使 用 信息 论 量 化 度量 信息 的 内 容 。 


在 划分 数据 集 之 前 之 后 信息 发 生 的 变化 称 为 信息 增益 ， 知 道 如 何 计算 信 
图 增益 ， 我 们 束 可 以 计算 每 个 特征 值 划分 数据 集 获 得 的 信息 增益 ， 获 得 
信息 增 苑 了 最 高 的 特征 就 是 最 好 的 选择 。 


在 可 以 评测 哪 种 数据 划分 方式 是 最 好 的 数据 划分 之 前 ， 我 们 必须 学 习 如 
何 计 算 信 息 增益 。 集 合 信息 的 度量 方式 称 为 香农 燃 或 者 简称 为 烂 ， 这 个 
名 字 来 源 于 信息 论 之 父 克 劳 德 :香农 。 


克 天 德 ' 香 农 
克 苑 德 香 农 被 公认 为 是 二 十 世纪 最 隐 明 的 人 之 一 ， 威 廉 : 庞 德 斯 通 


和 


“贝尔 实验 室 和 MIT 有 很 多 人 将 香农 和 爱 因 斯 坦 相提并论 ， 而 其 他 
人 则 认为 这 种 对 比 是 不 公平 的 对 香农 是 不 公平 的 。” 


1. 威廉 - 庞 德 斯 通 的 《财富 公式 : 击败 赌场 和 华尔街 的 不 为 人 知 的 科学 投注 系统 》(Fortune's Formula: The Untold Story of the Scientific Betting System that Beat the Casi- nos 
and Wall Street)[Hill and Wang，2005] 第 15 页 




















如 果 看 不 明白 什么 是 信息 增益 (information gain) 和 (entropy) ， 请 
不 要 着 急 一 一 它们 自 诞 生 的 那 一 天 起 ， 融 注定 会 令 世 人 十 分 费解 。 殉 劳 
德 : 香 农 写 完 信息 论 之 后 ， 约 戎 : 汉 : 诡 依 曼 建 议 使 用 * 和 ” 这 个 术语 ， 因 为 
大 家 都 不 知道 它 是 什么 意思 。 


烂 定义 为 信息 的 期 望 值 ， 在 明晰 这 个 概念 之 前 ， 我 们 必须 知道 信息 的 定 
义 。 如 有 果 竺 分 类 的 事务 可 能 划分 在 多 个 分 类 之 中 ， 则 符号 x 的 信息 定义 
为 














1) = lo0gsp(x) 
其 中 p(x) 是 选择 该 分 类 的 概率 。 


为 了 计算 精 ， 我 们 需要 计算 所 有 类 别 所 有 可 能 值 包 含 的 信息 期 望 值 ， 通 
过 下 面 的 公式 得 到 : 





HE -2 pl pt 


其 中 n 是 分 类 的 数目 。 


下 面 我 们 将 学 习 如 何 使 用 Python 计 算 信 息 粹 ， 创 建 名 为 trees.py 的 文件 ， 
将 程序 清单 3-1 的 代码 内 容 录 入 到 trees.py 文 件 中 ， 此 代码 的 功能 是 计算 
给 定数 据 集 的 炳 。 


程序 清单 3-1 计算 给 定数 据 集 的 香农 炳 


from math import log 


def calcShannonEnt (dataSet ) : 
numEntries = len(dataSet) 
labelCounts = {} 
#@@ (以 下 五 行 ) 为 所 有 可 能 分 类 创建 字 
for featVec in dataSet : 
currentLabel = featVec[-1] 

If currentLabel not in labelCounts.keys(): 
labelCounts[currentLabel] = 0 
labelCounts[currentLabel] += 1 

shannonEnt = 0.0 

for key in labelCounts: 

prob = float(labelCounts[key])/numEntries 

#@ 以 2 为 底 求 对 数 

shannonEnt -= prob * log(prob,2) 

return shannonEnt 



































程序 清单 3-1 的 代码 非常 人 简单。 首先 ， 计 算数 据 集中 实例 的 总 数 。 我 们 
也 可 以 在 需要 时 再 计算 这 个 值 ， 但 是 由 于 代码 中 多 次 用 到 这 个 值 ， 为 了 
提高 代码 效率 ， 我 们 显 式 地 声明 一 个 变量 保存 实例 总 数 。 然 后 ， 创 建 一 
个 数据 字典 ， 它 的 键 值 是 最 后 一 列 的 数值 @。 如 果 当 前 键 值 不 存在 ， 则 
扩展 字典 并 将 当前 键 值 加 入 字典 。 每 个 键 值 都 记录 了 当前 类 别 出 现 的 次 
数 。 最 后 ， 使 用 所 有 类 标签 的 及 生 频 率 计 算 类 别 出 现 的 概率 。 我 们 将 用 
这 个 概率 计算 香农 米 人 @， 统 计 所 有 类 标签 发 生 的 次 数 。 下 面 我 们 看 看 如 
何 使 用 燃 划 分 数据 集 。 


在 trees.py 文 件 中 ， 我 们 可 以 利用 createpDataset () 函 数 得 到 表 3-1 所 示 的 
人 简单 鱼 鉴定 数据 集 ， 你 可 以 输入 目 己 的 createDataset() 函 数 : 


def createDataSet(): 
dataSet = [[1, 1, 'yes'], 











[1, 1, yes ' ]， 
[1, 0, 'no'], 
[0，1， 'no'], 


了 
[0, 1, 'no']] 
labels = ['no surfacing','flippers'] 
return dataset, labels 


在 Python 命 令 提 示 符 下 输入 下 列 命 令 : 


>>> reload(trees.py) 

>>> myDat, labels=trees.createDatasSet() 

>>> myDat 

[[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [9, 1, 'no'], [9, 1, "no']] 
>>> trees.calcShannonEnt (myDat) 

0.97095059445466858 


烂 越 蝇 ， 则 混合 的 数据 也 越 多 ， 我 们 可 以 在 数据 集中 添加 更 多 的 分 类 ， 
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>>> myDat[0][-1]='maybe' 

>>> myDat 

[[1, 1, 'maybe'], [1, 1, 'yes'], [i1, ©, 'no'], [9, 1, 'no'], [0, 1, 'no']] 
>>> trees.calcShannonEnt (myDat) 

1.3709505944546687 





得 到 燃 之 后 ， 我 们 束 可 以 按照 获取 最 大 信息 增 荔 的 方法 划分 数据 集 ， 下 
一 节 我 们 将 具体 学 习 如 何 划 分 数据 集 以 及 如 何 上 度量 信息 增 苑 。 


另 一 个 度量 集合 无 序 程度 的 方法 是 基尼 不 纯度 : (Gini impurity) ， 简 单 
地 说 就 是 从 一 个 数据 集中 随机 选取 子 项 ， 度 量 其 被 错误 分 类 到 其 他 分 组 
里 的 概率 。 本 书 不 采用 基尼 不 纯度 方法 ， 这 里 就 不 再 做 进一步 的 介绍 。 
下 面 我 们 将 学 习 如 何 划 分 数据 集 ， 并 创建 决策 树 。 


2. 要 了 解 更 多 信息 ， 请 参考 Pan-Ning Tan, Vipin Kumar and Michael Steinbach , Introduction to Data Mining. Pearson Education (Addison-Wesley, 2005), 158. 


3.1.2 ”划分 数据 集 


上 节 我 们 学 习 了 如 何 度 量 数据 集 的 无 序 程度 ， 分 类 算法 除了 需要 测量 信 
恩 烂 ， 还 需要 划分 数据 集 ， 上 度量 划分 数据 集 的 燃 ， 以 便 判 断 当 前 是 否 
确 地 划分 了 数据 集 。 我 们 将 对 每 个 特征 划分 数据 集 的 结果 计算 一 次 信息 





烂 ， 然 后 判断 按照 哪个 特征 划分 数据 集 是 最 好 的 划分 方式 。 想 象 一 个 分 
布 在 二 维 空间 的 数据 散 点 图 ， 需 要 在 数据 之 间 划 条 线 ， 将 它们 分 成 两 部 
分 ， 我 们 应 该 按照 x 轴 还 是 y 轴 划 线 呢 ? 答案 就 是 本 节 讲 述 的 内 容 。 

要 划分 数据 集 ， 打 开 文 本 编辑 器 ， 在 trees.py 文 件 中 输入 下 列 的 代码 : 
程序 清单 3-2 按照 给 定 特征 划分 数据 集 


def splitDataSet(dataSset, axis, value): 
#@ 创建 新 的 list 对 象 





retDataSet = [|] 
for featVec in dataSet : 
if featVec[axis] == Value: 

#@ (以 下 三 行 ) 抽取 
reducedFeatVec = featVec[:axis 
reducedFeatVec.extend(featVec[axis+1:]) 
retDataSet .append(reducedFeatVec ) 

return retDataSet 


程序 清单 3-2 的 代码 使 用 了 三 个 输入 参数 : 待 划分 的 数据 集 、 划 分 数据 
集 的 特征 、 需 要 返回 的 特征 的 值 。 需 要 注意 的 是 ，Python 语 言 不 用 考虑 
内 存 分 配 问 题 。Python 语 言 在 函数 中 传递 的 是 列表 的 引用 ， 在 函数 内 部 
对 列表 对 象 的 修改 ， 将 会 影响 该 列表 对 象 的 整个 生存 周期 。 为 了 消除 这 
个 不 良 影响 ， 我 们 需要 在 函数 的 开始 声明 一 个 新 列表 对 象 。 因 为 该 函数 
代码 在 同一 数据 集 上 被 调用 多 次 ， 为 了 不 修改 原始 数据 集 ， 创 建 一 个 新 
的 列表 对 象 @。 数 据 集 这 个 列表 中 的 各 个 元 素 也 是 列表 ， 我 们 要 遍历 数 
据 集 中 的 每 个 元 素 ， 一 旦 发 现 符 合 要 求 的 值 ， 则 将 其 添加 到 新 创建 的 列 
表 中 。 在 if 语 句 中 ， 程 序 将 符合 特征 的 数据 抽取 出 来 信 。 后 面 讲述 得 更 
简单 ， 这 里 我 们 可 以 这 样 理解 这 段 代码 : 当 我 们 按照 某 个 特征 划分 数据 
集 时 ， 束 需要 将 所 有 符合 要 求 的 元 素 抽取 出 来 。 代 码 中 使 用 了 Python 语 
言 list 类 型 自 带 的 extend( ) 和 append() 方 法 。 这 两 个 方法 功能 类 似 ， 但 是 
在 处 理 多 个 列表 时 ， 这 两 个 方法 的 处 理 结 果 是 完全 不 同 的 。 


假定 存在 两 个 列表 ，a 和 b: 


>>> a=[1,2,3] 

>>> b=[4,5,6] 

>>> a.append(b) 

>>> a 

[1, 2, 3, [4, 5, 6]] 








如 果 执 行 a.append(b)， 则 列表 得 到 了 第 四 个 元 素 ， 而 且 第 四 个 元 素 也 


是 一 个 列表 。 然 而 如 果 使 用 extend 方 法 : 


>>> a=[1,2,3] 
>>> a.extend(b) 
>>> a 

[1, 2, 3, 4, 5, 6] 


则 得 到 一 个 包含 a 和 b 所 有 元 素 的 列表 。 


我 们 可 以 在 前 面 的 简单 样本 数据 上 测试 函数 splitpataset()。 首 先 还 是 
要 将 程序 清单 3.2 的 代码 增加 到 trees.py 文 件 中 ， 然 后 在 Python 命令 提示 
符 内 输入 下 述 命令 : 


>>> reload(trees ) 

<module 'trees' from 'trees.pyc'> 

>>> myDat, Labels=trees.createDataSet( ) 

>>> myDat 

[ [1 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [9, 1, 'no'], [9, 1, "no']] 
>>> trees.splitDataset(myDat,o0,1) [[1i, 'yes'], [1, 'yes'], [09, 'no']] 
>>> trees.splitDataset(myDat,0,0) [[1i, 'no'], [1i, 'no']] 


接 下 来 我 们 将 衣 历 整个 数据 集 ， 循 环 计 算 香 农 烂 和 splitpataset() 痢 
数 ， 找 到 最 好 的 特征 划分 方式 。 烂 计算 将 会 告诉 我 们 如 何 划 分 数据 集 是 
最 好 的 数据 组 织 方式 。 


打开 文本 编辑 器 ， 在 trees.py 文 件 中 输入 下 面 的 程序 代码 。 
程序 清单 3-3 ”选择 最 好 的 数据 集 划 分 方式 


def chooseBestFeatureToSplit(dataSet ) : 
numFeatures = len(dataset[0]) - 1 
baseEntropy = calcShannonEnt (dataSet ) 
bestIinfoGain = 0.0; bestFeature = -1 
for i in range(numFeatures): 
#@ (以 下 两 行 ) 创建 唯一 的 分 类 标签 列表 
featList = [example[i] for example in dataSet] 
uniqueVals = set(featList) 
newEntropy = 0.0 
#@ (以 下 五 行 ) 计算 每 种 划分 方式 的 信息 灶 
for value in uniqueVals: 
SubDataSet = splitDataset(dataset, i, value) 
prob = len(subDataSet)/float(len(dataSet)) 
newEntropy += prob * calcShannonEnt(SubDataSet ) 
infoGain = baseEntropy - newEntropy 
if (infoGain > bestInfoGain): 
#@@ ”计算 最 好 的 信息 增益 
bestInfoGain = infoGain 
bestFeature = i 
return bestFeature 
































程序 清单 3-3 给 出 了 函数 chooseBestFeatureToSplit() 的 完整 代码 ， 该 水 
数 实现 选取 特征 ， 划 分 数据 集 ， 计 算得 出 最 好 的 划分 数据 集 的 特征 。 函 
数 chooseBestFeatureToSplit() 使 用 了 程序 清单 3-1 和 3-2 中 的 函数 。 在 函 
数 中 调用 的 数据 需要 满足 一 定 的 要 求 : 第 一 个 要 求 是 ， 数 据 必须 是 一 种 
由 列表 元 素 组 成 的 列表 ， 而 且 所 有 的 列表 元 素 都 要 具有 相同 的 数据 长 

度 ; 第 二 个 要 求 是 ， 数 据 的 最 后 一 列 或 者 每 个 实例 的 最 后 一 个 元 素 是 当 
前 实例 的 类 别 标签 。 数 据 集 一 旦 满足 上 述 要 求 ， 我 们 就 可 以 在 函数 的 第 
一 行 判定 当前 数据 集 包 含 多 少 特 征 属性 。 我 们 无 需 限 定 list 中 的 数据 类 

型 ， 它 们 既 可 以 是 数字 也 可 以 是 字符 串 ， 并 不 影响 实际 计算 。 


在 开始 划分 数据 集 之 前 ， 程 序 清单 3-3 的 第 3 行 代码 计算 了 整个 数据 集 的 
原始 香农 烂 ， 我 们 保存 最 初 的 无 序 度量 值 ， 用 于 与 划分 完 之 后 的 数据 集 
计算 的 业 值 进行 比较 。 第 1 个 for 循 环 远 历数 据 集中 的 所 有 特征 。 使 用 列 
表 推 导 (List Comprehension) 来 创建 新 的 列表 ， 将 数据 集中 所 有 第 i 个 
特征 值 或 者 所 有 可 能 存在 的 值 写 入 这 个 新 列表 中 人 @。 然 后 使 用 Python 语 
言 原生 的 集合 〈set) 数据 类 型 。 集 合 数据 类 型 与 列表 类 型 相似 ， 不 同 之 
处 仅 在 于 集合 类 型 中 的 每 个 值 互 不 相同 。 从 列表 中 创建 集合 是 Python 语 
言 得 到 列表 中 唯一 元 素 值 的 最 快 方法 。 


裔 历 当前 特征 中 的 所 有 唯一 属性 值 ， 对 每 个 特征 划分 一 次 数据 集 @， 然 
后 计算 数据 集 的 新 烂 值 ， 并 对 所 有 唯一 特征 值得 到 的 业 求 和 。 信 息 增 巷 
古 精 的 减少 或 者 是 数据 无 序 度 的 减少 ， 大 家 肯定 对 于 将 炳 用 于 度量 数据 
无 序 度 的 减少 更 容易 理解 。 最 后 ， 比 较 所 有 特征 中 的 信息 增益 ， 返 回 最 
好 特征 划分 的 索引 值 合 . 


现在 我 们 可 以 测试 上 面 代 码 的 实际 输出 结果 ， 首 先 将 程序 清单 3-3 的 内 
容 输入 到 文件 trees.py 中 ， 然 后 在 Python 命令 提示 符 下 输入 下 列 命令 : 


>>> reload(trees ) 

<module 'trees' from 'trees.py'> 

>>> myDat, Labels=trees.createDataSet( ) 

>>> trees,chooseBestFeatureToSpJlit(myDat ) 

0 

>>> myDat 

[ [1 1, 'yes'], [1, 1, 'yes'], [1, 09, 'no'], [9, 1, 'no'], [9, 1, "no']] 
































代码 运行 结果 告诉 我 们 ， 第 0 个 特征 是 最 好 的 用 于 划分 数据 集 的 特征 。 
结果 是 耕 正确 呢 ?” 这 个 结果 又 有 什么 实际 意义 呢 ? 数据 集中 的 数据 来 源 


于 表 3-1， 让 我 们 回头 再 看 一 下 表 1-1 或 者 变量 mypat 中 的 数据 。 如 果 我 们 
按照 第 一 个 特征 属性 划分 数据 ， 也 就 是 说 第 一 个 特征 是 1 的 放 在 一 个 
组 ， 第 一 个 特征 是 0 的 放 在 另 一 个 组 ， 数 据 一 致 性 如 何 ? 按照 上 述 的 方 
法 划分 数据 集 ， 第 一 个 特征 为 1 的 海洋 生物 分 组 将 有 两 个 属于 鱼 类 ， 一 
个 属于 非 鱼 类 ; 另 一 个 分 组 则 全 部 属于 非 鱼 类 。 如 果 按 照 第 二 个 特征 分 
组 ， 结 果 又 是 怎么 样 呢 ? 第 一 个 海洋 动物 分 组 将 有 两 个 属于 鱼 类 ， 两 个 
属于 非 鱼 类 ; 另 一 个 分 组 则 只 有 一 个 非 鱼 类 。 第 一 种 划分 很 好 地 处 理 了 
相关 数据 。 如 果 不 相 信和 目测 结果 ， 读 者 可 以 使 用 程序 清单 3-1 的 
calcShannonEntropy() 函数 测试 不 同 特 征 分 组 的 输出 结 


本 节 我 们 学 习 了 如 何 上 度量 数据 集 的 信息 燃 ， 如 何 有 效 地 划分 数据 集 ， 下 
一 节 我 们 将 介绍 如 何 将 这 些 函 数 功 能 放 在 一 起 ， 构 建 决 集 树 。 


3.1.3 ”递归 构建 决策 树 


目前 我 们 已 经 学 习 了 从 数据 集 构造 决 集 树 算 法 所 需要 的 子 功能 模块 ， 其 
工作 原理 如 下 : 得 到 原始 数据 集 ， 然 后 基于 最 好 的 属性 值 划分 数据 集 ， 
由 于 特征 值 可 能 多 于 两 个 ， 因 此 可 能 存在 大 于 两 个 分 支 的 数据 集 划 分 。 
第 一 次 划分 之 后 ， 数 据 将 被 回 下 传递 到 树 分 支 的 下 一 个 市 点 ， 在 这 个 市 
i 

















递归 结束 的 条 件 是 ; 程序 人 志 历 完 所 有 划分 数据 集 的 属性 ， 或 者 每 个 分 文 
下 的 所 有 实例 都 具有 相同 的 分 类 。 如 果 所 有 实例 具有 相同 的 分 类 ， 则 得 
到 一 个 叶子 节操 或 者 终止 块 。 任 何 到 达 叶 子 节 点 的 数据 必然 属于 叶子 市 
扩 的 分 类 ， 参 见 图 3-2 所 示 。 


No surfacing Flippers? Fish? 








1 Yes Yes Yes 
2 Yes Yes Yes 
3 Yes No No 
4 No Yes No 
5 No Yes No 
Flippers? Fish? 
1, Yes Yeées 
No Surfacing? » Yes Yes 
3, No No 
4, Yes No 
5, Yes No 


图 3-2 划分 数据 集 时 的 数据 路 径 


第 一 个 结束 条 件 使 得 算法 可 以 终止 ， 我 们 甚至 可 以 设置 算法 可 以 划分 的 
最 大 分 组 数目 。 后 续 章 节 还 会 介绍 其 他 决策 树 算法 ， 如 C4.5 和 CART， 
这 些 算 法 在 运行 时 并 不 总 是 在 每 次 划分 分 组 时 都 会 消耗 特征 。 由 于 特征 
到 上 其 丰 是 在 每 次 划 分 数据 分 时 并 少 ， 因此 这 些 算法 在 实际 使 用 时 

能 引起 一 定 的 问题 。 目 前 我 们 并 不 需要 考虑 这 个 问题 ， 只 需要 在 算法 
a 查看 算法 是 否 使 用 了 所 有 属性 即 可 。 oe 
据 集 已 经 处 理 了 所 有 属性 ， 但 是 类 标签 依然 不 是 唯一 的 ， 此 时 我 们 需 
决定 如 何 定义 该 叶子 节点 ， 在 这 种 情况 下 ， 我 们 通 2 
方法 决定 该 叶子 节点 的 分 类 。 


打开 文本 编辑 器 ， 在 增加 下 面 的 函数 之 前 ， 在 trees.py 文 件 顶 部 增加 一 








代码 : import operator， 然 后 添加 下 面 的 代码 到 trees.py 文 件 中 : 


def majorityCnt(classList ) : 

classCount={} 

for vote in classList: 
if vote not in classCount.keys(): classCount[vote] = 0 
classCount[vote] += 1 

sortedClassCount=sorted(classCount.iteritems(), 
key=operator.itemgetter(1), reverse=True) 

return sortedClasscount[0][0] 


上 面 的 代码 与 第 2 章 classify9 部 分 的 投票 表决 代码 非常 类 似 ， 该 函数 使 
a }) 类 名 称 的 列表 ， 然 后 创建 键 值 为 classList 中 唯一 值 的 数据 字典 ， 

典 对 象 存 储 了 classList 中 每 个 类 标签 出 现 的 频率 ， 最 后 利用 operator 
康 作 键 值 排序 字典 ， 并 返 回 出 现 次 数 最 多 的 分 类 名 称 。 


在 文本 编辑 器 中 打开 trees.py 文 件 ， 这 加 下 面 的 程序 代码 。 
程序 清单 3-4 创建 树 的 函数 代码 


def createTree(dataSet, labels): 
classList = [example[-1] for example in dataSet] 
#@@ (以 下 两 行 ) 类别 完全 相同 则 停止 继续 划分 
If classList.count(classList[0]) == len(classList): 
return classList[0] 
# 人 @ (以 下 两 行 ) 遍历 完 所 有 特征 时 返回 出 现 次 数 最 多 的 
if len(dataset[0]) == 1: 
return majorityCnt(classList) 
bestFeat = chooseBestFeatureToSplit(dataSset) 
bestFeatLabel = labels[bestFeat] 
myTree = {bestFeatLabel:{}} 
#@@ 得 到 列表 包含 的 所 胡 属 性 值 
del(labels[bestFeat]) 
featValues = [example[bestFeat] for example in dataSet] 
uniqueVals = set(featValues) 
for value in uniqueVals: 
subLabels = labels[:] 
myTree[bestFeatLabell[value] = createTree(splitDataSet 
(dataSet, bestFeat, value),subLabels) 

































































return myTree 


程序 清单 3-4 的 代码 使 用 两 个 输入 参数 : 数据 集 和 标签 列表 。 标 签 列 表 
包含 了 数据 集中 所 有 特征 的 标签 ， 算 法 本 里 并 不 需要 这 个 变量 ， 但 是 为 
了 给 出 数据 明确 的 含义 ， 我 们 将 它 作 为 一 个 输入 参数 提供 。 此 外 ， 前 面 
提 到 的 对 数据 集 的 要 求 这 里 依然 需要 满足 。 上 述 代 人 码 首先 创建 了 名 

为 classList 的 列表 变量 ， 其 中 包含 了 数据 集 的 所 有 类 标签 。 递 归 函 数 
的 第 一 个 停止 条 件 是 所 有 的 类 标签 完全 相同 ， 则 直接 返 回 该 类 标签 @。 











圳 归 函 数 的 第 二 个 停止 条 件 是 使 用 完了 所 有 特征 ， 仍 然 不 能 将 数据 集 划 
分 成 仪 包含 唯一 类 别 的 分 组 介 。 由 于 第 二 个 条 件 无 法 简单 地 返回 唯一 的 
A 
回 值 。 


下 一 步 程 序 开 始 创建 树 ， 这 里 使 用 Python 语言 的 字典 类 型 存储 树 的 信 

恩 ， 当 然 也 可 以 声明 特殊 的 数据 类 型 存储 树 ， 但 是 这 里 完全 没有 必要 。 
字典 变量 myTree 存 储 了 树 的 所 有 信息 ， 这 对 于 其 后 绘制 树 形 图 非常 重 

要 。 妆 前 数据 集 选取 的 最 好 特征 存储 在 变量 bestFeat 中 ， 得 到 列表 包含 
的 所 有 属性 值 @@。 这 部 分 代码 与 程序 清早 3-3 中 的 部 分 代码 类 似 ， 这 里 
就 不 再 进一步 解释 了 。 


最 后 代码 授 历 当前 选择 特征 包含 的 所 有 属性 值 ， 在 每 个 数据 集 划 分 上 化 
归 调 用 函数 createTree()， 得 到 的 返回 值 将 被 插入 到 字典 变量 myTree 

中 ， 因 此 函数 终止 执行 时 ， 字 — 典 中 将 会 租 套 很 多 代表 叶子 节点 信息 的 字 
典 数 据 。 在 解释 这 个 藤 套 数据 之 前 ， 我 们 先 看 一 下 循环 的 第 一 

行 subLabels = labels[:]， 这 行 代码 复制 了 类 标签 ， 并 将 其 存储 在 新 列 
表 变 量 subLabels 中 。 之 所 以 这 样 做 ， 是 因为 在 Python 语言 中 函数 参数 是 
列表 类 型 时 ， 参 数 是 按照 引用 方式 传递 的 。 为 了 保证 每 次 调用 函 
人 使 用 新 变量 subLabels 代 蔡 原 
台 列 表 。 


现在 我 们 可 以 测试 上 面 代码 的 实际 输出 结果 ， 首 先 将 程序 清单 3-4 的 内 
容 输入 到 文件 trees.py 中 ， 然 后 在 Python 命令 提示 符 下 输入 下 列 命令 : 


>>> reload(trees ) 

<module 'trees' from 'trees.pyc'> 

>>> myDat, labels=trees.createDataset() 

>>> myTree = trees.createTree(myDat, labels) 

>>> myTree 

{'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}} 


























变量 myTree 包 含 了 很 多 代表 树 结构 信息 的 吹 套 字典 ， 从 左边 开始 ， 第 一 
个 关键 字 no surfacing 是 第 一 个 划分 数据 集 的 特征 名 称 ， 该 关键 字 的 值 
也 是 另 一 个 数据 字典 。 第 二 个 关键 字 是 no ” surfacing 特征 划分 的 数据 
集 ， 这 些 关 键 字 的 值 是 no surfacing 节 点 的 子 节点 。 这 些 值 可 能 是 类 标 
签 ， 也 可 能 是 男 一 个 数据 字典 。 如 果 值 是 类 标签 ， 则 该 子 市 点 是 叶子 忆 
扩 ; 如 果 值 是 为 一 个 数据 字典 ， 则 子 节 点 是 一 个 判断 市 皮 ， 这 种 格式 结 
构 不 断 重 复 就 构成 了 整 棵 树 。 本 节 的 例子 中 ， 这 标 树 包含 了 3 个 叶子 贡 











扩 以 及 2 个 判断 节操 。 


本 节 讲 述 了 如 何 正确 地 构造 树 ， 下 一 市 将 介绍 如 何 绘制 图 形 ， 方 便 我 们 
正确 理解 数据 信息 的 内 在 含义 。 


3.2 ”在 Python 中 使 用 Matplotlib 注 解 绘制 
树 形 图 


上 节 我 们 已 经 学 习 了 如 何 从 数据 集中 创建 树 ， 然 而 字典 的 表示 形式 非常 
不 易于 理解 ， 而 且 直 接 绘制 图 形 也 比较 困难 。 本 节 我 们 将 使 用 
Matplotlib 库 创建 树 形 图 。 决 集 树 的 主要 优点 就 是 直 观 易 于 理解 ， 如 果 
不 能 将 其 直观 地 显示 出 来 ， 就 无 法 发 挥 其 优势 。 虽 然 前 面 章节 我 们 使 用 
的 图 形 库 已 经 非常 强大 ， 但 是 Python 并 没有 提供 绘制 树 的 工具 ， 因 此 我 
们 必须 自己 绘制 树 形 图 。 本 节 我 们 将 学 习 如 何 编写 代码 绘制 如 图 3-3 所 
示 的 决策 树 。 








no swtacing: 





CQo) 
图 3-3 ”决策 树 的 范例 
3.2.1 Matplotlib 注 解 
Matplotlib 提 供 了 一 个 注解 工具 annotations， 非 常 有 用 ， 它 可 以 在 数据 
图 形 上 添加 文本 注释 。 注 解 通常 用 于 解释 数据 的 内 容 。 由 于 数据 上 面 直 


接 存 在 文本 描述 非常 丑陋 ， 因 此 工具 内 骨 支 持 融 币 头 的 划 线 工具 ， 使 得 
我 们 可 以 在 其 他 恰当 的 地 方 指向 数据 位 置 ， 并 在 此 处 添加 描述 信息 ， 解 








释 数 据 内 容 。 如 图 3-4 所 示 ， 在 坐标 (0.2, 0.1) 的 位 置 有 一 个 点 ， 我 们 将 对 
该 点 的 描述 信息 放 在 (0.35, 0.3) 的 位 置 ， 并 用 箭头 指向 数据 点 (0.2, 0.1)。 
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图 3-4 ”Matplotlib 注 解 示例 
绘制 还 是 图 形 化 


为 什么 使 用 单词 “绘制 ”(plot) ? 为 什么 在 讨论 如 何在 图 形 上 显示 
数据 的 时 候 不 使 用 单词 “图 形 化 ”(graph〉? 这 里 存在 一 些 语言 上 的 
差别 ， 瑞 语 单词 graph 在 茶 些 学 科 中 具有 特定 的 含义 ， 如 在 应 用 数 
学 中 ， 一 系列 由 边 连接 在 一 起 的 对 象 或 者 节点 称 为 图 。 节 点 的 任意 
联系 都 可 以 通过 边 来 连接 。 在 计算 机 科学 中 ， 图 是 一 种 数据 结构 ， 
用 于 表示 数学 上 的 概念 。 好 在 汉语 并 不 存在 这 些 混淆 的 概念 ， 这 里 
就 统一 使 用 绘制 树 形 图 。 


本 书 将 使 用 Matplotlib 的 注解 功能 绘制 树 形 图 ， 它 可 以 对 文字 着 色 并 提 
供 多 种 形状 以 供 选择 ， 而 且 我 们 还 可 以 反 转 箭头 ， 将 它 指 同文 本 框 而 不 
是 数据 点 。 打 开 文 本 编辑 器 ， 创 建 名 为 treePlotter.py 的 新 文件 ， 然 后 输 
入 下 面 的 程序 代码 。 











程序 清单 3-5 ”使 用 文本 注解 绘制 树 节 点 
Import matplotlib.pyplot as pilt 


#@ (以 下 三 行 ) 定义 文本 框 和 箭头 格式 

decisionNode = dict(boxstyle="sawtooth", fc="0.8") 
leafNode = dict(boxstyle="round4", fc="0.8") 
arrow_args = dict(arrowstyle="<-") 











#@ 〔〈 以 下 两 行 ) 绘制 带 箭 头 的 注解 

def plotNode(nodeTxt, centerPt，parentPt，nodeType ) : 
createPJlot.ax1l.annotate(nodeTxt，Xy=parentPt， 

xycoords='axes fraction '， 
XyteXxt=centerPt，textcoords='axes fraction', 
va="center", ha="center", bbox=nodeType, arrowprops=arrow_args) 








de 


+h 


createpPlot(): 

fig = plt.figure(1, facecolor='white') 

fig.clf() 

reateplot.ax1 = plt.subplot(111, frameon=False) 
plotNode(' 决 策 节点 '， (0.5，0.1)，(0.1，0.5)，decisionNode) 
plotNode(' 叶 节点 '，(0.8, 0.1)，(0.3, 0.8)，1leafNode) 
plt.show() 


这 是 第 一 个 版 本 的 createPlot() 函 数 ， 与 例子 文件 中 的 createPlot() 函 
数 有 些 不 同 ， 随 着 内 容 的 深入 ， 我 们 将 逐步 添加 缺失 的 代码 。 代 码 定 义 
了 树 节 点 格式 的 常量 @。 然 后 定义 plotNode() 函 数 执行 了 实际 的 绘图 功 
能 ， 该 函数 需要 一 个 绘图 区 ， 该 区 域 由 全 局 变量 createPlot ,ax1 定 义 。 

Python 语言 中 所 有 的 变量 默认 都 是 全 局 有 效 的 ， 只 要 我 们 清楚 知道 当前 
代码 的 主要 功能 ， 并 不 会 引入 太 大 的 麻烦 。 最 后 定义 createPlot() 孙 

数 ， 它 是 这 段 代 码 的 核心 。createPlot() 函 数 首先 创建 了 一 个 新 图 形 并 
清空 绘图 区 ， 然 后 在 绘图 区 上 绘制 两 个 代表 不 同类 型 的 树 节点 ， 后 面 我 
们 将 用 这 两 个 节点 绘制 树 形 图 。 


为 了 测试 上 面 代 码 的 实际 输出 结果 ， 打 开 Python 命 令 提示 符 ， 导 
入 treePlotter 模 块 : 





>>> import treePlotter 
>>> treePlotter.createplot() 


程序 的 输出 结果 如 图 3-5 所 示 ， 我 们 也 可 以 改变 函数 plotNode( ) 信 ， 观 察 
图 中 x、y 位 置 如 何 变 化 。 
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图 3-5 ”函数 plotNode 的 例子 
现在 我 们 已 经 掌握 了 如 何 绘制 树 节点 ， 下 面 将 学 习 如 何 绘制 整 棵 树 。 
3.2.2 ”构造 注解 树 


绘制 一 标 完 整 的 树 需 要 一 些 技 巧 。 我 们 虽然 有 x、y 上 坐标 ， 但 是 如 何 放置 
所 有 的 树 节点 却 是 个 问题 。 我 们 必须 知道 有 多 少 个 叶 节 点 ， 以 便 可 以 正 
确 确 定 x 轴 的 长 度 ; 我 们 还 需要 知道 树 有 多 少 层 ， 以 便 可 以 正确 确定 y 轴 
的 高 度 。 这 里 我 们 定义 两 个 新 水 数 getNumLeafs() 和 getTreeDepth()， 来 
获取 叶 节 点 的 数目 和 树 的 层 数 ， 参 见 程序 清单 3-6， 并 将 这 两 个 函数 添 
加 到 文件 treePlotter.py 中 。 


程序 清单 3-6 ”获取 叶 节 点 的 数目 和 树 的 层 数 


def getNumLeafs(myTree ) : 


numLeafs = 0 

firstStr = myTree.keys()[9] 
SecondDict = myTree[firstStr] 
for key in secondDict.keys(): 


#@ (以 下 三 行 ) 测试 节点 的 数据 类 型 是 否 为 字典 























If type(secondDict[key]). name =='dict'"': 
numLeafs += getNumLeafs(secondDict[key]) 
else: numLeafs +=1 


return numLeafs 


def getTreeDepth(myTree): 

maxDepth = 0 

firstStr = myTree.keys()[0] 

secondDict = myTree[firstStr] 

for key in secondDict.keys(): 
if type(secondDict[key]). name =='dict': 

thisDepth = 1 + getTreeDepth(secondDict[key]) 

else: thisDepth = 1 
if thisDepth > maxDepth: maxDepth = thisDepth 

return maxDepth 





上 述 程序 中 的 两 个 函数 具有 相同 的 结构 ， 后 面 我 们 也 将 使 用 到 这 两 个 函 
数 。 这 里 使 用 的 数据 结构 说 明了 如 何在 Python 字典 类 型 中 存储 树 信 息 。 

第 一 个 关键 字 是 第 一 次 划分 数据 集 的 类 别 标签 ， 附 带 的 数值 表示 子 节 点 
的 取 值 。 从 第 一 个 关键 字 出 有 发， 我 们 可 以 过 历 整 柠 树 的 所 有 子 节 点 。 使 
用 Python 提 供 的 type( ) 函 数 可 以 判断 子 节点 是 否 为 字典 类 型 @。 如 果子 
节点 是 字典 类 型 ， 则 该 节点 也 是 一 个 判断 节点 ， 需 要 递归 调 

用 getNumLeafs() 国 数 。getNumLeafs() 函 数 遇 历 整 棵 树 ， 轩 计时 子 节 点 
的 个 数 ， 并 返回 该 数值 。 第 2 个 函数 getTreeDepth() 计 算 授 历 过 程 中 通 

到 判断 节点 的 个 数 。 该 函数 的 终止 条 件 是 叶子 节点 ， 一 旦 到 达 叶 子 节 

点 ， 则 从 递归 调用 中 返回 ， 并 将 计算 树 深 度 的 变量 加 一 。 为 了 节省 大 家 
的 时 间 ， 函 数 retrieveTree 输 出 预先 存储 的 树 信 息 ， 避 免 了 每 次 测试 代 
码 时 都 要 从 数据 中 创建 树 的 抵 烦 。 


添加 下 面 的 代码 到 文件 treePlotter.py 中 : 


def retrieveTree(1i): 
listofTrees =[{'no surfacing': {0: 'no', 1: {'flippers': \ 
{0: 'no', 1: 'yes'}}}}, 
{'no surfacing': {0: 'no', 1: {'flippers': \ 
{0: {'head': {0: 'no', 1: 'yes'}}, 1: 'no'}}}} 











return listofTrees[i] 





保存 文件 treePlotter.py， 在 Python 命令 提示 符 下 输入 下 列 命 令 : 


>>> reload(treePlotter) 


<module "treePlotter' from 'treePlotter .py '> 

>>> treePlotter,retrieveTree (1) 

{'no surfacing': {0: 'no', 1: {'flippers': {0: {'head': {0: 'no', 1: 
‘yes'}}, 1: 'no'}}}}</pre> 

>>> myTree = treePlotter.retrieveTree (0) 

>>> treePlotter ,getNumLeafs(myTree) 

3 

>>> treePlotter ,getTreeDepth(myTree) 

2 


函数 retrieveTree() 主 要 用 于 测试 ， 返回 预定 义 的 树 结 构 。 上 述 命令 中 
调用 getNumLeafs() 函 数 返 回 值 为 93， 等 于 树 0 的 叶子 节 点 数 ;， 调 
用 getTreeDepths() 函 数 也 能 够 正确 返回 树 的 层 数 。 


现在 我 们 可 以 将 前 面 学 到 的 方法 组 合 在 一 起 ， 绘 制 一 标 完 整 的 树 。 最 终 
的 结果 如 图 3-6 所 示 ， 但 是 没有 x 和 y 轴 标签 。 
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图 3-6 ”人 简单 数据 集 绘制 的 树 形 图 


打开 文本 编辑 器 ， 将 程序 清单 3-7 的 内 容 添 加 到 treePlotter.py 文 件 中 。 注 
意 ， 己 经 在 文件 中 定义 了 函数 createPlot()， 此 处 我 们 需要 更 新 这 
部 分 代码 。 


程序 清单 3-7 ”plotTree 函 数 


#@@ (以 下 四 行 ) 在 父子 节点 间 填 充 文本 信息 
def plotMidText(cntrPpt, parentPpt, txtString): 

xMid = (parentPt[0]-cntrPt[0])/2.0 + cntrPt[0] 

yMid = (parentPt[1]-cntrPt[1])/2.0 + cntrPt[1] 

createplot.ax1.text(xMid, yMid, txtString, va="center", ha="center", rotation: 

















def plotTree(myTree, parentPt, nodeTxt): 
# 人 @ (以 下 两 行 ) 计算 宽 和 高 








numLeafs = getNumLeafs(myTree) 

depth = getTreeDepth(myTree) 

firstStr = myTree.keys()[9] 

cntrPt = (plotTree.xOff + (1.0 + float(numLeafs))/2.0/plotTree.totalw, plotTr' 

#@@ 标记 子 节点 属性 值 

plotMidText(cntrPpt, parentpt, nodeTxt) 

plotNode(firstStr, cntrpt, parentPpt, decisionNode) 

secondDict = myTree[firstStr] 

#@ (以 下 两 行 ) 减 小 y 偏 移 

plLotTree.yoff = plotTree,yoff - 1.0/plotTree.totalD 

for key in secondDict.keys(): 
If type(secondDict[key]). name =='dict': 

plotTree(secondDict[key],cntrPpt, str(key)) #recursion 

else: 
plotTree.xOff = plotTree.xOff + 1.0/plotTree.totalw 
plotNode(secondDict[key], (plotTree.xOoff, plotTree.yOoff),, cntrpt, leafNo 
plotMidText((plotTree.xOoff, plotTree.yOoff), cntrpt, str(key)) 

plLotTree.yoff = plotTree,yoff + 1.0/plotTree.totalD 








de 


=h 


CreatePlot(inTree ) : 

fig = plt.figure(1, facecolor='white') 

fig.clf() 

axprops = dict(xticks=[], yticks=[]) 

createPlot.ax1 = plt.subplot(111, frameon=False, **axprops) 
plotTree.totalw = float(getNumLeafs(inTree)) 
plotTree.totalD = float(getTreeDepth(inTree)) 

plotTree.xOff = -0.5/plotTree.totalw; plotTree.yoff = 1.0; 
plotTree(inTree, (0.5,1.0), '') 

plt.show() 


函数 createPlot() 是 我 们 使 用 的 主 函 数 ， 它 调用 了 plotTree()， 畴 

数 plotTree 又 依次 调用 了 前 面 介绍 的 函数 和 plotMidText()。 绘 制 树 形 图 
的 很 多 工作 都 是 在 疯 数 plotTree() 中 完成 的 ， 函 数 plotTree() 上 自 先 计算 
树 的 宽 和 高 介 。 全 局 变量 plotTree.totalw 存 储 树 的 宽度 ， 全 局 变量 
plotTree.totalD 存 储 树 的 深度 ， 我 们 使 用 这 两 个 变量 计算 树 节 点 的 摆 放 
位 置 ， 这 样 可 以 将 树 绘制 在 水 平方 向 和 垂直 方向 的 中 心 位 置 。 与 程序 清 
单 3-6 中 的 函数 getNumLeafs( ) 和 getTreeDepth( ) 类 似 ， 函数 plotTree( ) 也 
是 个 递归 函数 。 树 的 宽度 用 于 计算 放置 判断 节点 的 位 置 ， 主 要 的 计算 原 
则 是 将 它 放 在 所 有 叶子 节点 的 中 间 ， 而 不 仅仅 是 它 子 节点 的 中 间 。 同 时 
我 们 使 用 两 个 全 局 变量 plotTree.xoff 和 plotTree.yoff 妃 踩 已 经 绘制 的 
节点 位 置 ， 以 及 放置 下 一 个 节点 的 恰当 位 置 。 另 一 个 需要 说 明 的 问题 
是 ， 绘 制图 形 的 x 轴 有 效 范 围 是 0.0 到 1.0，y 轴 有 效 范围 也 是 0.0~1.0。 为 
了 方便 起 见 ， 图 3-6 给 出 具体 坐标 值 ， 实 际 输出 的 图 形 中 并 没有 xy 坐 
标 。 通 过 计算 树 包 含 的 所 有 叶子 节点 数 ， 划 分 图 形 的 宽度 ， 从 而 计算 得 
到 当前 节点 的 中 心 位 置 ， 也 就 是 说 ， 我 们 按照 叶子 节点 的 数目 将 x 轴 划 
分 为 奉 干部 分 。 按 照 图 形 比 例 绘制 树 形 图 的 最 大 好 处 是 无 需 关 心 实 际 输 
出 图 形 的 大 小 ， 一 旦 图 形 大 小 发 生 了 变 人 化， 函数 会 自动 按照 图 形 大 小 重 
新 绘制 。 如 果 以 像素 为 单位 绘制 图 形 ， 则 缩放 图 形 就 不 是 一 件 简 单 的 工 
































作 。 


接 看 ， 绘 出 子 市 把 具 有 的 特征 值 ， 或 者 沿 此 分 支 回 下 的 数据 实例 必须 具 
有 的 特征 值 @。 使 用 函数 plotmidText() 计 算 父 节点 和 子 节 点 的 中 间 位 
置 ， 并 在 此 处 添加 简单 的 文本 标签 信息 @。 


然后 ， 按 比 例 减少 全 局 变量 plotTree .yoff， 并 标注 此 处 将 要 绘制 子 节 
点 个， 这 些 节 点 既 可 以 是 叶子 节点 也 可 以 是 判断 节点 ， 此 处 需要 只 保存 
绘制 图 形 的 轨迹 。 因 为 我 们 是 自 项 问 下 绘制 图 形 ， 因 此 需要 依次 递减 y 
坐标 值 ， 而 不 是 递增 y 坐 标 值 。 然 后 程序 采用 函数 getNumLeafs( ) 和 
getTreeDepth() 以 相同 的 方式 递归 遍历 整 标 树 ， 如 果 节 点 是 叶子 节点 则 
在 图 形 上 男 出 叶子 节点 ， 如 果 不 是 叶子 节点 则 递归 调用 plotTree() 函 
数 。 在 绘制 了 所 有 子 节 点 之 后 ， 增 加 全 局 变量 Y 的 偏 移 。 


程序 清单 3-7 的 最 后 一 个 函数 是 createPlot()， 它 创建 绘图 区 ， 计 算 树 形 
图 的 全 局 尺寸， 并 调用 递归 函数 plotTree()。 


现在 我 们 可 以 验证 一 下 实际 的 输出 效 末 。 添 加 上 述 代 码 到 文件 
treePlotter.py 之 后 ， 在 Python 命令 提示 符 下 输入 下 列 命令 : 














>>> reload(treePlotter) 

<module "treePlotter ' from "treePlotter .pyc '> 
>>> myTree=treePlotter .retrieveTree (0) 

>>> treePlotter,createPlot(myTree) 








输出 效果 如 图 3-6 所 示 ， 但 是 没有 坐标 轴 标 签 。 接 着 按照 如 下 命令 变更 
字典 ， 重 新 绘制 树 形 图 : 
>>> myTree['no surfacing'][3]='maybe' 
>>> myTree 
{'no surfacing ': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}, 3: 
'maybe'}} 
>>> treePlotter,createPlot(myTree) 


和 输出 效果 如 图 3-7 所 示 ， 有 点 像 一 个 无 头 的 简 笔 男 。 你 也 可 以 在 树 字 和 典 
中 随意 添加 一 些 数 据 ， 并 重新 绘制 树 形 图 观察 输出 结果 的 变化 。 


到 目前 为 止 ， 我 们 已 经 学 习 了 如 何 构造 决策 树 以 及 绘制 树 形 图 的 方法 ， 
下 节 我 们 将 实际 使 用 这 些 方法 ， 并 从 数据 和 算法 中 得 到 某 些 新 知识 。 





四 
图 3-7 超过 两 个 分 文 的 树 形 图 


3.3 测试 和 存储 分 类 器 


本 书 第 一 部 分 主要 讲解 机 器 学 习 的 分 类 算法 ， 然 而 到 目前 为 止 ， 本 章 学 
习 的 主要 内 容 是 如 何 从 原始 数据 集中 创建 决 朱 树 ， 并 使 用 Python 函 数 库 
绘制 树 形 图 ， 方 便 我 们 了 解数 据 的 真实 含义 ， 下 面 我 们 将 把 重点 转 移 到 
如 何 利用 决 集 树 执行 数据 分 类 上 。 


本 节 我 们 将 使 用 决策 树 构建 分 类 器 ， 以 及 实际 应 用 中 如 何 存储 分 类 器 。 
下 一 市 我 们 将 在 真实 数据 上 使 用 决策 树 分 类 算法 ， 验 证 它 是 否 可 以 正确 
预测 出 患者 应 该 使 用 的 隐形 眼镜 类 型 。 


3.3.1 测试 算法 : 使 用 决 集 树 执行 分 类 


依 徘 训练 数据 构造 了 决 集 树 之 后 ， 我 们 可 以 将 它 用 于 实际 数据 的 分 类 。 
在 执行 数据 分 类 时 ， 需 要 决 俩 树 以 及 用 于 构造 树 的 标签 同 量 。 然 后 ， 程 
序 比较 测试 数据 与 决策 树 上 的 数值 ， 递 归 执 行 该 过 程 直到 进入 叶子 
点 ; 最 后 将 测试 数据 定义 为 叶子 节点 所 属 的 类 型 。 


为 了 验证 算法 的 实际 效果 ， 打 开 文 本 编辑 器 ， 将 程序 清单 3-8 包 含 的 代 
人 码 添加 a 到 文件 trees.py 中 。 


程序 清单 3-8 ”使 用 决策 树 的 分 类 函数 


def classify(inputTree,featLabels, testVec): 
firstStr = inputTree.keys()[0] 
secondDict = inputTree[firstStr] 
# 舍 将 标签 字符 串 转 换 为 索引 
featIndex = featLabels.index(firstStr) 
for key in secondDict.keys(): 
If testVec[featIndex] == key: 
if type(secondDict[key]). name =='dict ': 
classLabel = classify(secondDict[key],featLabels, testVec) 
else: classLabel = SecondDict[key] 
return classLabel 





程序 清单 3-8 定 义 的 函数 也 是 一 个 递归 函数 ， 在 存储 带 有 特征 的 数据 会 
面临 一 个 问题 : 程序 无 法 确定 特征 在 数据 集中 的 位 置 ， 例 如 前 面 例子 的 
第 一 个 用 于 划分 数据 集 的 特征 是 no surfacing 属 性 ， 但 是 在 实际 数据 集 
中 该 属性 存储 在 哪个 位 置 ? 是 第 一 个 属性 还 是 第 二 个 属性 ? 特征 标签 列 
表 将 帮助 程序 处 理 这 个 问题 。 使 用 index 方 法 查找 当前 列表 中 第 一 个 匹 


配 firststr 变 量 的 元 素 @， 然后 代码 化 归 氨 局 历 整 棵 树 ， 比较 testvec 变 量 
局 内 得 己 后 车 感 肌 恒 ， 如 果 到 达 叶 子 节 点 ， 则 返回 当前 节点 的 分 类 标 





将 程序 清单 3-8 包 含 的 代码 添加 到 文件 trees.py 之 后 ， 打 开 Python 命 令 提 
示 符 ， 输 入 下 列 命 令 : 


>>> myDat, Labels=trees.createDataSet( ) 

>>> labels 

[no surfacing', 'flippers'] 

>>> myTree=treePlotter.retrieveTree (0) 

>>> myTree 

{'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}} 
>>> trees.classify(myTree, labels, [1,0]) 


i'no! 
>>> trees.classify(myTree, labels, [1,1]) 
'yes' 


与 图 3-6 比 较 上 述 输出 结果 。 5 节点 名 为 no Sao ng 它 有 两 个 子 节 
点 : 0 点 类 标签 为 no; 尺 一 个 是 名 为 flippers 
的 判断 节点 ， 此 处 进入 递归 调用 ， flippers 节 点 有 两 个 子 节 点 。 以 前 绘 
制 的 树 形 图 和 此 处 代表 树 的 数据 吉 构 完全 相同 。 


现在 我 们 已 经 创建 了 使 用 决策 树 的 分 类 器 ， 但 是 每 次 使 用 分 类 器 时 ， 
2 第 机 分 类 





3.3.2 ”使 用 算法 : 决策 树 的 存储 


构造 决策 树 是 很 耗 时 的 任务 ， 即 使 处 理 很 小 的 数据 集 ， 如 前 面 的 样本 数 
据 ， 也 要 论 费 几 秒 的 时 间 ， 如 果 数 据 集 很 大 ， 将 会 耗费 很 多 计算 时 间 。 
然而 用 创建 好 的 决 集 树 解决 分 类 问题 ， 则 可 以 很 快 完成 。 因 此 ， 为 了 市 
省 计算 时 间 ， 最 好 能 够 在 每 次 执行 分 类 时 调用 已 经 构造 好 的 决策 树 。 为 
了 解决 这 个 问题 ， 需 要 使 用 Python 模块 pickle 序 列 化 对 象 ， 参 见 程序 清 
单 3.9。 序 列 化 对 象 可 以 在 磁盘 上 保存 对 象 ， 并 在 需要 的 时 候 读 取出 
来 。 任 何 对 象 都 可 以 执行 序列 化 操作 ， 字 典 对 象 也 不 例外 。 


程序 清单 3-9 ”使 用 pickle 模 块 存储 决策 树 


def storeTree(in 
putTree, filename): 
import pickle 
fw = open(filename,'w') 





pickle.dump(inputTree, fw) 
fw.close() 


def grabTree(filename): 
import pickle 
fr = open(filename) 
return pickle.1load(fr) 


在 Python 命令 提示 符 中 输入 下 列 命令 验证 上 述 代码 的 效果 : 


>>> trees,StoreTree(myTree，'CclassifierStorage .txt ') 
>>> trees.grabTree('classifierStorage.txt') 
{'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}} 





通过 上 面 的 代码 ， 我 们 可 以 将 分 类 器 存储 在 人 硬盘 上 ， 而 不 用 每 次 对 数据 
分 类 时 重新 学 习 一 这， 这 也 是 决策 树 的 优点 之 一 ， 像 第 2 革 介 绍 了 k- 近 
邻 算 法 就 无 法 持久 化 分 类 器 。 我 们 可 以 预先 提 烁 并 存储 数据 集中 包含 的 
知识 信息 ， 在 需要 对 事物 进行 分 类 时 再 使 用 这 些 知识 。 下 节 我 们 将 使 用 
这 些 工具 处 理 隐 形 眼镜 数据 集 。 








3.4 示例 : 使 用 决策 树 预 测 隐 形 眼 镜 类 型 


本 节 我 们 将 通过 一 个 例子 讲解 决策 树 如 何 预测 患者 需要 佩戴 的 隐形 眼镜 
类 型 。 使 用 小 数据 集 ， 我 们 束 可 以 利用 决策 树 学 到 很 多 知识 : 眼科 医生 
古 如 何 判 断 患 者 需要 佩戴 的 镜片 类 型 ， 一 旦 理解 了 决策 树 的 工作 原理 ， 
我 们 甚至 也 可 以 帮助 人 们 判断 需要 佩戴 的 镜片 类 型 。 


示例 : 使 用 决策 树 预 测 隐形 眼镜 类 型 








1. 收集 数据 : 提供 的 文本 文件 。 

2. 准备 数据 : 解析 tab 键 分 隔 的 数据 行 。 

3. 分 析 数 据 : 快速 检查 数据 ， 确 保 正 确 地 解析 数据 内 容 ， 使 
用 createPlot() 函 数 绘制 最 终 的 树 形 图 。 

4. 训练 算法 : 使 用 3.1 节 的 createTree() 国 数 。 

人 
列 。 

6. 使 用 算法 : 存储 树 的 数据 结构 ， 以 便 下 次 使 用 时 无 需 重 新 构造 树 。 


隐形 眼镜 数据 集 是 非常 着 名 的 数据 集 ， 它 包含 很 多 患者 眼 部 状况 的 观 
察 条件 以 及 医生 推荐 的 隐形 眼镜 类 型 。 隐 有形 眼 镜 类 型 包括 人 硬 材质 、 软 材 
质 以 及 不 适合 佩戴 隐形 眼镜 。 数 据 来 源 于 UCI 数 据 库 ， 为 了 更 容易 显示 
0 I 
~ 8 


1. The dataset is a modified version of the Lenses dataset retrieved from the UCI Machine Learning Repository November 3, 2010 [http://archive.ics.uci.edu/ml/machine-learning- 











databases/lenses/]. The source of the data is Jadzia Cendrowska and was originally published in “PRISM: An algorithm for inducing modular rules,” in International Journal of Man-Machine 


Studies (1987), 27, 349-70.) 


可 以 在 Python 命 令 提示 符 中 输入 下 列 命 令 加 载 数据 : 


>>> fr=open('lenses.txt’) 

>>> lenses=[inst.strip().split('\t') for inst in fr,readlines()] 

>>> lensesLabels=['age', 'prescript', 'astigmatic', 'tearRate'] 

>>> lensesTree = trees.createTree(lenses,1lensesLabels) 

>>> lensesTree 

{'tearRate': {'reduced': 'no lenses', 'normal': {'astigmatic': {'yes': 
{'prescript': {'hyper': {'age': {'pre': 'no lenses', 'presbyopic': 

"no lenses', 'young':'hard'}}, 'myope': 'hard'}}, 'no': {'age': {'pre': 
'soft', 'presbyopic': {'prescript': {'hyper': 'soft', 'myope': 

"no lenses'}}, 'young': 'soft'}}}}}} 

>>> treePlotter.createPplot(lensesTree) 


采用 文本 方式 很 难 分 辨 出 决策 树 的 模样 ， 最 后 一 行 命 令 调 

用 createP1lot() 函 数 绘 制 了 如 图 3-8 所 示 的 树 形 图 。 沿 着 决策 树 的 不 同 分 
文 ， 我 们 可 以 得 到 不 同 患者 需要 佩戴 的 隐形 眼镜 类 型 。 从 图 3-8 上 我 们 
es 
: 隐形 眼 陪 。 











图 3-8 ”由 ID3 算 法 产生 的 决策 树 


图 3-8 所 示 的 决 集 树 非常 好 地 匹配 了 实验 数据 ， 然 而 这 些 匹 配 选 项 可 能 
太 多 了 。 我 们 将 这 种 问题 称 之 为 过 度 匹 配 〈overfitting) 。 为 了 减少 过 
度 匹 配 问题 ， 我 们 可 以 裁剪 决策 树 ， 去 手 一 些 不 必要 的 叶子 节点 。 如 宋 
叶子 节点 只 能 增加 少许 信息 ， 则 可 以 删除 该 节点 ， 将 它 并 入 到 其 他 叶子 


节点 中 。 第 9 章 将 进一步 讨论 这 个 问题 。 


第 9 章 将 学 习 另 一 个 决策 树 构造 算法 CART， 本 章 使 用 的 算法 称 为 ID3， 
它 是 一 个 好 的 算法 但 并 不 完美 。ID3 算 法 无 法 直接 处 理 数值 型 数据 ， 尽 
管 我 们 可 以 通过 量化 的 方法 将 数值 型 数据 转化 为 标 称 型 数值 ， 但 是 如 果 
存在 太 多 的 特征 划分 ，ID3 算 法 仍然 会 面临 其 他 问题 。 





3.5 本章 小 结 


决 倘 树 分 类 器 就 像 带 有 终止 块 的 流程 图 ， 终 止 块 表示 分 类 结果 。 开 始 处 
理 数据 集 时 ， 我 们 首先 需要 测量 集合 中 数据 的 不 一 致 性 ， 也 惑 是 燃 ， 然 
后 寻找 最 优 方案 划分 数据 集 ， 直 到 数据 集中 的 所 有 数据 属于 同一 分 类 。 
ID3 算 法 可 以 用 于 划分 标 称 型 数据 集 。 构 建 决 策 树 时 ， 我 们 通常 采用 递 
归 的 方法 将 数据 集 转化 为 决策 树 。 一 般 我 们 并 不 构造 新 的 数据 结构 ， 而 
古 使 用 Python 语 言 内 购 的 数据 结构 字典 存储 树 节 点 信息 。 


使 用 Matplotlib 的 注解 功能 ， 我 们 可 以 将 存储 的 树 结构 转化 为 容易 理解 
的 图 形 。Python 语 言 的 pickle 模 块 可 用 于 存储 诀 集 树 的 结构 。 隐 形 眼 镜 
的 例子 表明 决策 树 可 能 会 产生 过 多 的 数据 集 划 分 ， 从 而 产生 过 度 匹 配 数 
据 集 的 问题 。 我 们 可 以 通过 裁 勇 决策 树 ， 合 并 相 邻 的 无 法 产生 大 量 信 息 
增 番 的 叶 节 点 ， 消 除 过 度 匹 配 问题 。 


还 有 其 他 的 决策 树 的 构造 算法 ， 最 流行 的 是 C4.5 和 CART， 第 9 章 讨 论 回 
归 问 题 时 将 介绍 CART 算 法 。 


本 书 第 2 章 、 第 3 章 讨 论 的 是 结果 确定 的 分 类 算法 ， 数 据 实例 最 终 会 被 明 
确 划 分 到 某 个 分 类 中 。 下 一 章 我 们 讨论 的 分 类 算法 将 不 能 完全 确定 数据 
人 











第 4 草 ”基于 概 京 论 有 的 分 类 方法 村 系 
页 时 斯 


本 章 内 容 


。 使 用 概率 分 布 进行 分 类 

。 学 习 朴 素 贝 叶 斯 分 类 器 

。 解析 RSS 源 数据 

。 使 用 朴素 贝 叶 斯 来 分 析 不 同 地 区 的 态度 


前 两 章 我 们 要 求 分 类 器 做 出 艰难 决策 ， 给 出 “该 数据 实例 属于 哪 一 类 ”这 
类 问题 的 明确 答案 。 不 过 ， 分 类 器 有 时 会 产生 错误 结果 ， 这 时 可 以 要 求 
0 


概率 论 是 许多 机 器 学 习 算 法 的 基础 ， 所 以 深刻 理解 这 一 主题 就 显得 十 分 
重要 。 第 3 章 在 计算 特征 值 取 茶 个 值 的 概率 时 先 及 了 一 些 概率 知识 ， 在 
那里 我 们 移 统计 特征 在 数据 集中 取 茶 个 特定 值 的 次 数 ， 然 后 除 以 数据 集 
的 实例 总 数 ， 束 得 到 了 特征 取 该 值 的 概率 。 我 们 将 在 此 基础 上 深入 讨 


论 。 


本 章 会 给 出 一 些 使 用 概率 论 进行 分 类 的 方法 。 首 先 从 一 个 最 简单 的 概率 
分 类 圳 开始， 然后 给 出 一 些 假设 来 学 习 朴 系 贝 叶 斯 分 类 器 。 我 们 称 之 
为 “ 朴 系 ?， 证 因为 整个 形式 化 过 程 只 做 最 原始 、 最 简单 的 假设 。 不 必 担 
心 ， 你 会 详细 了 解 到 这 些 假设 。 我 们 将 充分 利用 Python 的 文本 处 理 能 
将 文档 切 分 成 词 同 量 ， 然 后 利用 词 癌 量 对 文档 进行 分 类 。 我 们 还 将 构建 
男 一 个 分 类 融 ， 观 察 其 在 真实 的 垃圾 邮件 数据 集中 的 过 滤 效 果 ， 必 要 时 
还 会 回顾 一 下 条 件 概率 。 最 后 ， 我 们 将 介绍 如 何 从 个 人 发 布 的 大 量 广告 
中 学 习 分 类 器 ， 并 将 学 习 结果 转换 成 人 类 可 理解 的 信息 。 




















4.1 基于 贝 叶 斯 决策 理论 的 分 类 方法 


朴素 贝 叶 斯 

优点 : 在 数据 较 少 的 情况 下 仍然 有 效 ， 可 以 处 理 多 类 别 问题 。 
缺点 : 对 于 输入 数据 的 准备 方式 较为 敏感 。 

适用 数据 类 型 : 标 称 型 数据 。 


朴素 贝 叶 斯 是 贝 叶 斯 决策 理论 的 一 部 分 ， 所 以 讲述 朴素 贝 叶 斯 之 前 有 必 
要 快速 了 解 一 下 贝 叶 斯 决策 理论 。 


假设 现在 我 们 有 一 个 数据 集 ， 它 由 两 类 数据 组 成 ， 数 据 分 布 如 图 4-1 所 
外。 
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图 4-1 两 个 参数 已 知 的 概率 分 布 ， 参 数 决定 了 分 布 的 形状 
假设 有 位 读者 找到 了 描述 图 中 两 类 数据 的 统计 参数 。《〈 和 暂且 不 用 管 如 何 


找到 描述 这 类 数据 的 统计 参数 ， 第 10 章 会 详细 介绍 。) 我 们 现在 

用 pl1(x,y) 表 示 数 据点 (x 妇 属于 类 别 1〈 图 中 用 圆 点 表示 的 类 别 ) 的 概率 ， 
用 p2(x,y) 表 示 数 据点 (xy) 属 于 类 别 2《〈 图 中 用 三 角形 表示 的 类 别 ) 的 概 
率 ， 那 么 对 于 一 个 新 数据 点 (x,y)， 可 以 用 下 面 的 规则 来 判断 它 的 类 别 : 


。 如 果 p1i(x,y) > p2(x,y)， 那 么 类 别 为 1。 
。 如 条 p2(x,y) > pi(x,y)， 那 么 类 别 为 2。 


也 就 是 次 ， 我 们 会 选择 高 概率 对 应 的 类 别 。 这 婚 是 贝 叶 斯 决策 理论 的 核 
心思 想 ， 即 选择 具有 最 高 概率 的 决策 。 回 到 图 4-1， 如 采 该 图 中 的 整个 
数据 使 用 6 个 浮 点 数 来 表示 ， 并 且 计 算 类 别 概率 的 Python 代码 只 有 两 
行 ， 那 么 你 会 更 倾 问 于 使 用 下 面 哪 种 方法 来 对 该 数据 点 进行 分 类 ? 


整个 数据 由 两 类 不 同 分 布 的 数据 构成 ， 有 可 能 只 需要 6 个 统计 参数 来 描述 。 一 一 译 者 注 





1. 使 用 第 1 章 的 kNN， 进 行 1000 次 距离 计算 ; 
2. 使 用 第 2 章 的 决策 树 ， 分 别 沿 x 轴 、y 轴 划分 数据 ; 
3. 计算 数据 点 属于 每 个 类 别 的 概率 ， 并 进行 比较 。 


使 用 决策 树 不 会 非 党 成功， 而 和 简单 的 概率 计算 相 比 ，KNN 的 计算 量 太 
大 。 因 此 ， 对 于 上 述 问 题 ， 最 佳 选 择 是 使 用 刚才 提 到 的 概率 比较 方法 。 


接 下 来 ， 我 们 必须 要 详 述 pl 及 pl 概率 计算 方法 。 为 了 能 够 计算 p1 与 p2， 
有 必要 讨论 一 下 条 件 概 率 。 如 果 你 觉得 目 己 已 经 相当 了 解 条 件 概 紊 了 ， 
那么 可 以 直接 跳 过 下 一 节 。 


贝 叶 斯 ? 


这 里 使 用 的 概率 解释 属于 贝 叶 斯 概率 理论 的 范畴 ， 该 理论 非常 流行 
且 效果 民 好 。 贝 叶 斯 概率 以 18 世 纪 的 一 位 神学 家 托马斯 . 贝 叶 斯 
(Thomas Bayes) 的 名 字 命 名 。 贝 叶 斯 概率 引入 先 验 知识 和 逻辑 推 
理 来 处 理 不 确定 命题 。 另 一 种 概率 解释 称 为 频数 概率 〈frequency 

， 它 只 从 数据 本 身 获 得 结论 ， 并 不 考虑 逻辑 推理 及 先 
验 知 识 。 


4.2 ”条件 概率 


接 下 来 伦 点 时 间 讲 讲 概率 与 条 件 概 率 。 如 果 你 对 p(x,ylc) 符 号 很 熟悉 ， 
那么 可 以 跳 过 本 市。 


假设 现在 有 一 个 装 了 7 块 石 头 的 负 子 ， 其 中 3 块 是 灰色 的 ，4 块 是 黑色 的 
《如 图 4-2 所 示 ) 。 如 果 从 罐子 中 随机 取出 一 块 石头 ， 那 么 是 灰色 石头 
的 可 能 性 是 多 少 ? 由 于 取石 关 有 7 种 可 能 ， 其 中 3 种 为 灰色 ， 所 以 取出 灰 
色 石 头 的 概率 为 7。 那 么 取 到 黑色 石头 的 概率 又 是 多 少 呢 ? 很 显然， 
是 4/7。 我 们 使 用 P(gray) 来 表示 取 到 灰色 石 尖 的 概率 ， 其 概率 值 可 以 通 
过 灰色 石头 数目 除 以 总 的 石头 数目 来 得 到 。 


© 
@@@@ 


图 4-2 ”一 个 包含 7 块 石头 的 集合 ， 石 头 的 颜色 为 灰色 或 者 黑色 。 如 果 
随机 从 中 取 一 块 石 汰 ， 那 么 取 到 灰色 石头 的 概率 为 7。 类 似 地 ， 取 到 
黑色 石头 的 概率 为 4/7 


人 -3 所 示 放 在 两 个 桶 中 ， 那 么 上 述 概率 应 该 如 何 计 
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A 桶 B 本 


图 4-3 ” 沙 到 两 个 桶 中 的 7 块 石 头 








要 计算 p(gray) 或 者 P(black)， 事 先 得 知道 石头 所 在 桶 的 信息 会 不 会 改变 
结果 ? 你 有 可 能 已 经 想到 计算 从 B 桶 中 取 到 灰色 石头 的 概率 的 办 法 ， 这 
就 是 所 谓 的 条 件 概率 (conditional probability) 。 假 定 计算 的 是 从 B 桶 取 
到 灰色 石头 的 概率 ， 这 个 概率 可 以 记 作 p(graylbucketB)， 我 们 称 之 

为 “在 已 知 石头 出 自 B 桶 的 条 件 下 ， 取 出 灰色 石头 的 概率 ”。 不 难得 

到 ，P(gray|bucketA) 值 为 2/4，P(gray|bucketB) 的 值 为 1/3。 


条 件 概率 的 计算 公式 如 下 所 示 : 


P(gray|lbucketB) = P(gray and bucketB)/P(bucketB) 


我 们 来 看 看 上 述 公 式 是 否 合理 。 首 先 ， 用 B 桶 中 灰色 石头 的 个 数 除 以 两 
个 桶 中 总 的 石头 数 ， 得 到 p(gray and bucketB) = 1/7。 其 次 ， 由 于 B 桶 
中 有 3 块 石 头 ， 而 总 石头 数 为 7， 于 是 P(bucketB) 就 等 于 3/7。 于 是 

有 P(gray|bucketB) = P(gray and bucketB)/P(bucketB) = (1/7) / 
(3/7) = ”1/3。 这 个 公式 虽然 对 于 这 个 简单 例子 来 说 有 点 复杂 ， 但 当 存 
ea 用 代数 方法 计算 条 件 概率 时 ， 该 公式 也 很 


另 一 种 有 效 计算 条 件 概率 的 方法 称 为 贝 叶 斯 准则 。 贝 叶 斯 准则 告诉 我 们 
如 何 交 换 条 件 概 率 中 的 条 件 与 结果 ， 即 如 宁 已 知 P(xlc)， 要 求 P(c1x)， 
那么 可 以 使 用 下 面 的 计算 方法 : 


,1 = HxlOMO 
Md = 全 2 








我 们 讨论 了 条 件 概率 ， 接 下 来 的 问题 是 如 何 将 其 应 用 到 分 类 器 中 。 下 一 
节 将 讨论 如 何 结合 贝 叶 斯 决策 理论 使 用 条 件 概率 。 


4.3 ”使 用 条 件 概率 来 分 类 


4.1 闻 提 到 贝 叶 斯 决策 理论 要 求 计算 两 个 概率 pi1(x，y) 和 p2(x，y): 


。 如果 p1(x，y) > p2(x，y)， 那 么 属于 类 别 1; 
。 如 末 p2(x，y) > p1(x，y)， 那 么 属于 类 别 2。 


但 这 两 个 准则 并 不 是 贝 叶 斯 决策 理论 的 所 有 内 容 。 使 用 pi( ) 和 p2( ) 只 
征 为 了 尽 可 能 简化 描述 ， 而 真正 需要 计算 和 比较 的 是 p(c'|1x， y) 和 
p(cz|x， y)。 这 些 符号 所 代表 的 具体 意义 是 : 给 定 东 个 由 x、y 表 示 的 数 
据点 ， 那 么 该 数据 点 来 目 类 别 c, 的 概 雍 是 多 少 ? 数据 点 来 目 类 别 c: 的 概 
率 又 是 多 少 ? 注意 这 些 概率 与 刚才 给 出 的 概率 p(x， ylc') 并 不 一 样 ， 不 
0 0 0 
准则 得 到 : 





人 
pl(c|x) = 
使 用 这 些 定义 ， 可 以 定义 贝 叶 斯 分 类 准则 为 ， 


。 如 果 pP(c,|x，y) > P(cz|x，y)， 那 么 属于 类 别 c,。 
。 如 果 P(ci|x,，y) < P(cz|x，y)， 那 么 属于 类 别 c,。 


使 用 贝 叶 斯 准则 ， 可 以 通过 已 知 的 三 个 概率 值 来 计算 未 知 的 概率 值 。 后 
面 就 会 给 出 利用 由 叶 斯 准则 来 计算 概率 并 对 数据 进行 分 类 的 代码 。 现 在 
介绍 了 一 些 概率 理论 ， 你 也 了 解 了 基于 这 些 理论 构建 分 类 器 的 方法 ， 接 
下 来 残 要 将 它们 付 诸 实 践 。 下 一 市 会 介绍 一 个 简单 但 功能 强大 的 贝 叶 斯 
分 类 器 的 应 用 案例 。 





4.4 ”使 用 杆 系 贝 叶 斯 进行 文档 分 类 


机 需 学 习 的 一 个 重要 应 用 就 是 文档 的 目 动 分 类 。 在 文档 分 类 中 ， 整 个 文 
档 〈 如 一 封 电 子 邮 件 ) 是 实例 ， 而 电子 邮件 中 的 茶 些 元 素 则 构成 特征 。 
虽然 电子 邮件 是 一 种 会 不 断 增 加 的 文本 ， 但 我 们 同样 也 可 以 对 新 闻 报 
道 、 用 户 留 言 、 政 府 公文 等 其 他 任意 类 型 的 文本 进行 分 类 。 我 们 可 以 观 
察 文档 中 出 现 的 词 ， 并 把 每 个 词 的 出 现 或 者 不 出 现 作为 一 个 特征 ， 这 样 
得 到 的 特征 数目 就 会 跟 词 汇 表 中 的 词 目 一 样 多 。 朴 素 贝 叶 斯 是 上 布 介绍 
的 贝 叶 斯 分 类 器 的 一 个 扩展 ， 是 用 于 文档 分 类 的 第 用 算法 。 


使 用 每 个 词 作为 特征 并 观察 它们 是 否 出 现 ， 这 样 得 到 的 特征 数目 会 有 多 
少 呢 ? 针对 的 是 哪 一 种 人 类 语言 呢 ? 当然 不 止 一 种 语言 。 据 估计 ， 仅 在 
英语 中 ， 单 词 的 总 数 就 有 500 “000' 之 多 。 为 了 能 进行 英文 阅读 ， 估 计 需 
要 掌握 数 千 单词 。 


ertextbook.comyfacts/2001/JohnnyLing.shtml, 2010 年 10 月 20 日 检索 结果 。 


朴素 贝 叶 斯 的 一 般 过 程 : 

1. 收集 数据 : 可 以 使 用 任何 方法 。 本 章 使 用 RSS 源 。 

2. 准备 数据 : 需要 数值 型 或 者 布尔 型 数据 
nn 
Ts 

4. 训练 算法 : 计算 不 同 的 独立 特征 的 条 件 概率 。 

5. 测试 算法 : 计算 错误 率 。 

6. 使 用 算法 : 一 个 常见 的 朴素 贝 叶 斯 应 用 是 文档 分 类 。 可 以 在 任意 
的 分 类 场景 中 使 用 朴 系 贝 叶 斯 分 类 器 ， 不 一 定 非 要 是 文本 。 


假设 词汇 表 中 有 1000 个 单词 。 要 得 到 好 的 概率 分 布 ， 就 需要 足够 的 数据 
样本 ， 假 定 样 本 数 为 N。 前 面 讲 到 的 约会 网 站 示例 中 有 1000 个 实例 ， 手 
写 识 别 示 例 中 每 个 数字 有 200 个 样本 ， 而 决策 树 示 例 中 有 24 个 样本 。 其 
中 ，24 个 样本 有 点 少 ，200 个 样本 好 一 些 ， 而 1000 个 样本 就 非常 好 了 。 
约会 网 站 例子 中 有 三 个 特征 。 由 统计 学 知 ， 如 果 每 个 特征 需要 N 个 样 
本 ， 那 么 对 于 10 个 特征 将 需要 N"* 个 样本 ， 对 于 包含 1000 个 特征 的 词汇 表 
将 需要 Neo 个 样本 。 可 以 看 到 ， 所 需要 的 样本 数 会 随 着 特征 数目 增 大 而 
迅速 增长 。 


如 果 特 征 之 间 相 互 独立 ， 那 么 样本 数 就 可 以 从 N* 减 少 到 1000xN。 所 谓 























独立 〈independence) 指 的 是 统计 意义 上 的 独立 ， 即 一 个 特征 或 者 单词 
出 现 的 可 能 性 与 它 和 其 他 单词 相 邻 没有 关系 。 举 个 例子 讲 ， 假 设 单词 

bacon 出 现在 unhealthy 后 面 与 出 现在 delicious 后 面 的 概率 相同 。 当 然 ， 我 
们 知道 这 种 假设 并 不 正确 ，bacon 常 常 出 现在 delicious 附 近 ， 而 很 少 出 现 
在 unhealthy 附 近 ， 这 个 假设 正 是 朴素 贝 叶 斯 分 类 器 中 朴素 Cnaive) 一 词 
的 含义 。 朴 素 贝 叶 斯 分 类 堪 中 的 另 一 个 假设 是 ， 每 个 特征 同等 重要 :。 其 
实 这 个 假设 也 有 问题 。 “如 果 要 判断 留言 板 的 留言 是 否 得 当 ， 那 么 可 能 
不 需要 看 完 所 有 的 1000 个 单词 ， 而 只 需要 看 10~20 个 特征 束 足 以 做 出 判 
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2. 朴素 贝 叶 斯 分 类 器 通常 有 两 种 实现 方式 : 一 种 基于 贝 努 利 模型 实现 ， 一 种 基于 多 项 式 模型 实现 。 这 里 采用 前 一 种 实现 方式 。 该 实现 方式 中 并 不 考虑 词 在 文档 中 出 现 的 次 数 ， 只 考 
虑 出 不 出 现 ， 因 此 在 这 个 意义 上 相当 于 假设 词 是 等 权重 的 。4.5.4 节 给 出 的 实际 上 是 多 项 式 模型 ， 它 考虑 词 在 文档 中 的 出 现 次 数 。 一 一 译 者 注 


到 目前 为 目 ， 你 已 经 了 解 了 足够 的 知识 ， 可 以 开始 编写 代码 了。 如 采 还 

不 清楚 ， 那 么 了 解 代 码 的 实际 效果 会 有 助 于 理解 。 下 一 市 将 使 用 Python 

0 
目 3> 容 。 















































4.5 使 用 Python 进行 文本 分 类 


要 从 文本 中 获取 特征 ， 需 要 先 拆 分 文本 。 具 体 如 何 做 呢 ? 这 里 的 特征 是 
来 自 文本 的 词 条 (token)〉 ， 一 个 词 条 是 字符 的 任意 组 合 。 可 以 把 词 条 
想象 为 单词 ， 也 可 以 使 用 非 单词 词 条 ， 如 URL、IP 地 址 或 者 任意 其 他 字 
符 串 。 然 后 将 每 一 个 文本 片段 表示 为 一 个 词 条 向 量 ， 其 中 值 为 1 表示 词 
条 出 现在 文档 中 ，0 表 示 词 条 未 出 现 。 


以 在 线 社区 的 留言 板 为 例 。 为 了 不 影响 社区 的 发 展 ， 我 们 要 屏 贡 侮辱 性 
的 言论 ， 所 以 要 构建 一 个 快速 过 滤器 ， 如 果 东 条 留言 使 用 了 负面 或 者 侮 
辱 性 的 语言 ， 那 么 就 将 该 留言 标识 为 内 容 不 当 。 过 滤 这 类 内 容 是 一 个 很 
人 
州 表示 。 


接 下 来 首先 给 出 将 文本 转换 为 数字 问 量 的 过 程 ， 然 后 介绍 如 何 基 于 这 些 
向 量 来 计算 条 件 概率 ， 并 在 此 基础 上 构建 分 类 器 ， 最 后 还 要 介绍 一 些 利 
用 Python 实现 朴 系 贝 叶 斯 过 程 中 需要 考 碟 的 问题 。 


4.5.1 准备 数据 : 从 文本 中 构建 词 问 量 

我 们 将 把 文本 看 成 单词 癌 量 或 者 词 条 向 量 ， 也 就 是 说 将 句子 转换 为 向 
量 。 考 虑 出 现在 所 有 文档 中 的 所 有 单词 ， 再 决定 将 哪些 词 纳入 词汇 表 或 
者 说 所 要 的 词汇 集合 ， 然 后 必须 要 将 每 一 篇 文档 转换 为 词汇 表 上 的 问 


量 。 接 下 来 我 们 正式 开始 。 打 开 文 本 编辑 器 ， 创 建 一 个 叫 bayes.py 的 新 
文件 ， 然 后 将 下 面 的 程序 清单 添加 到 文件 中 。 


程序 清单 4-1 词 表 到 问 量 的 转换 函数 


def loadDataSet(): 
postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], 















































4 
['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'], 
['my', 'dalmation', 'is', 's0o', 'cute', 'I', 'love', ‘'him'], 
['stop', 'posting', 'stupid', ‘'worthless', 'garbage'], 
['mr', 'licks', 'ate', 'my', 'steak', 'how','to', 'stop', 'him'], 
['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']] 
classVec = [0,1,90,1,09,1] #1 代表 侮辱 性 文字 ，0 代 表 正 常言 论 


return postingList,classVec 


def createVocabList(dataSet): 
#@ 创建 一 个 空 集 
vocabset = set([]) 
for document in dataSet : 














#@@ ”创建 两 个 集合 的 并 集 
vocabset = VocabSet | set(document) 
return list(vocabset) 





def setofwWords2Vec(vocabList, inputSet): 
#@@ 创建 一 个 其 中 所 含 元 素 都 为 6 的 向 量 























returnVec = [0]*len(vocabList) 
for word in inputSet: 
if word in vocabList: 
returnVec[vocabList.index(word)] = 1 
else: print "the word: %s is not in my Vocabulary!" % word 
return returnVec 


第 一 个 函数 loadpataset() 创 建 了 一 些 实验 样本 。 该 函数 返回 的 第 一 个 
变量 是 进行 词 条 切 分 后 的 文档 集合 ， 这 些 文档 来 自 斑点 犬 爱 好 者 留言 
板 。 这 些 留言 文本 被 切 分 成 一 系列 的 词 条 集合 ， 标 点 符号 从 文本 中 去 
探 ， 后 面 会 探讨 文本 处 理 的 细节 。1loadpDataset( ) 函 数 返 回 的 第 二 个 变 
量 是 一 个 类 别 标签 的 集合 。 这 里 有 两 类 ， 侮 辱 性 和 非 侮辱 性 。 这 些 文本 
的 类 别 由 人 人 工 标注 ， 这 些 标注 信息 用 于 训练 程序 以 便 自动 检测 侮辱 性 留 


三 o 

















下 一 个 函数 createvocabList() 会 创建 一 个 包含 在 所 有 文档 中 出 现 的 不 重 
复 词 的 列表 ， 为 此 使 用 了 Python 的 set 数 据 类 型 。 将 词 条 列表 输 给 set 构 
造 函 数 ，set 就 会 返回 一 个 不 重复 词 表 。 首 先 ， 创 建 一 个 空 集合 @Q@， 人 然 
后 将 每 篇 文档 返回 的 新 词 集合 添加 到 该 集合 中 人 四。 操作 符 | 用 于 求 两 个 
集合 的 并 集 ， 这 也 是 一 个 按 位 或 (oR) 操作 符 (参见 附录 C) 。 在 数学 
符号 表示 上 ， 按 位 或 操作 与 集合 求 并 操作 使 用 相同 记号 。 


获得 词汇 表 后 ， 便 可 以 使 用 函数 setofwords2vec()， 该 函数 的 输入 参数 
为 词汇 表 及 茶 个 文档 ， 输 出 的 是 文档 癌 量 ， 疝 量 的 每 一 元 素 为 1 或 9， 分 
列表 示 词 汇 表 中 的 单词 在 输入 文档 中 是 否 出 现 。 函 数 首先 创建 一 个 和 词 
汇 表 等 长 的 向 量 ， 并 将 其 元 素 都 设置 为 0 人 @。 接 着 ， 授 历 文 档 中 的 所 有 
单词 ， 如 果 出 现 了 词汇 表 中 的 单词 ， 则 将 输出 的 文档 回 量 中 的 对 应 值 设 
为 1。 一 切 都 顺利 的 话 ， 就 不 需要 检查 某 个 词 是 人 否 还 在 vocabList 中 ， 后 
边 可 能 会 用 到 这 一 操作 。 


现在 看 一 下 这 些 函数 的 执行 效果 ， 保 存 bayes .py 文件 ， 然 后 在 Python 提 
示 符 下 输入 : 


>>> Import bayes 

>>> listOPosts,1listClasses = bayes.1loadDataset() 

>>> myVocabList = bayes.createVocabList(1istOPosts) 

>>> myVocabList 

['cute', 'love', 'help', 'garbage', 'quit', 'I', 'problems', 'is', 'park', 

















'stop', 'flea', 'dalmation', 'licks', 'food', 'not', 'him', 'buying', 
'posting', 'has', 'worthless', 'ate', 'to', 'maybe', 'please', 'dog', 
'how', 'stupid', 'so', 'take', 'mr', 'steak', 'my'] 


检查 上 述 词 表 ， 就 会 发 现 这 里 不 会 出 现 重 复 的 单词 。 目 前 该 词 表 还 没有 
排序 ， 需 要 的 话 ， 稍 后 可 以 对 其 排序 。 


下 面 看 一 下 函数 setofwords2vec() 的 运行 效果 : 


>>> bayes.setofWords2Vec(myVocabList, ee 

[9, 0, 1, 0, 0, 90, 1, 0, 90, 090, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 
0, 0, 0, 0, 0, 0, 1] 

>>> bayes.setofwords2Vec(myVocabList, listOPosts[3]) 

[0, 90, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 90, 1, 0, 1, 0, 0, 0, 0, 090, 
0, 1, 0, 0, 0, 0, 0] 


该 函数 使 用 词汇 表 或 者 想 要 检查 的 所 有 单词 作为 输入 ， 然 后 为 其 中 每 一 
个 单词 构建 一 个 特征 。 一 旦 给 定 一 篇 文档 斑点 犬 网 站 上 的 一 条 留 
言 ) ， 该 文档 束 会 被 转换 为 词 问 量 。 接 下 来 检查 一 下 函数 的 有 效 

性 。myvocabList 中 索引 为 2 的 元 素 古 什么 单词 ? 应 该 是 羊 词 help。 该 音 
人 第 四 篇 文档 











4.5.2 ”训练 算法 : 从 词 向 量 计算 概率 **** 


前 面 介绍 了 如 何 将 一 组 单词 转换 为 一 组 数字 ， 接 下 来 看 看 如 何 使 用 这 些 
数字 计算 概率 。 现 在 已 经 知道 一 个 词 是 否 出 现在 一 篇 文档 中 ， 也 知道 该 
文档 所 属 的 类 别 。 还 记得 3.2 节 提 到 的 贝 叶 斯 准则 ? 我 们 重 写 贝 叶 斯 准 
则 ， 将 之 前 的 x、y 蔡 换 为 w。 粗 体 w 表 示 这 是 一 个 向 量 ， 即 它 由 多 个 数 
值 组 成 。 在 这 个 例子 中 ， 数 值 个 数 与 词汇 表 中 的 词 个 数 相同 。 





p(w |c;)p(c;) 


P(c |w) = - 
p(w) 





我 们 将 使 用 上 述 公 式 ， 对 每 个 类 计算 该 值 ， 然 后 比较 这 两 个 概率 值 的 大 
小 。 如 何 计算 呢 ? 首先 可 以 通过 类 别 1《〈 人 和 侮辱 性 留言 或 非 侮辱 性 留言 

中 文档 数 除 以 总 的 文档 数 来 计算 概率 p(ci)。 接 下 来 计算 p(wlc,)， 这 里 
就 要 用 到 朴素 贝 叶 斯 假设 。 如 果 将 w 展 开 为 一 个 个 独立 特征 ， 那 么 就 可 
以 将 上 述 概 率 写 作 p(w,w,,w,. .wlc;)。 这 里 假设 所 有 词 都 互相 独立 ， 该 


假设 也 称 作 条 件 独 立 性 假设 ， 它 意味 着 可 以 使 
用 p(wulcj)p(wlcj)p(wlc)...p(wlcj) 来 计算 上 述 概率 ， 这 就 极 大 地 简化 
了 计算 的 过 程 。 


该 函数 的 伪 代 码 如 下 : 


计算 每 个 类 别 中 的 文档 数目 
对 每 篇 训练 文档 : 



























































对 每 个 类 别 : 
如 果 词 条 出 现在 文档 中 -增加 该 词 条 的 计数 值 
增加 所 有 词 条 的 计数 值 
对 每 个 类 别 : 
对 每 个 词 条 : 
将 该 词 条 的 数目 除 以 总 词 条 数目 得 到 条 件 概 率 

















返回 每 个 类 别 的 条 件 概率 


我 们 利用 下 面 的 代码 来 实现 上 述 伪 码 。 打 开 文 本 编辑 器 ， 将 这 些 代 人 码 添 
加 到 bayes .py 文件 中 。 该 函数 使 用 了 NumPy 的 一 些 函 数 ， 故 应 确保 
将 from numpy import * 语 句 添 加 到 bayes.py 文 件 的 最 前 面 。 


程序 清单 4-2 ” 朴 系 贝 叶 斯 分 类 需 训 练 函 数 


def trainNBO(trainMatrix,trainCategory): 
numTrainDocs = len(trainMatrix) 
numwords = len(trainMatrix[0]) 
pAbusive = sum(trainCategory)/float(numTrainDocs) 
#@@ (以 下 两 行 ) 初始 化 概率 
pONum = zeros(numWords); piNum = zeros(numwords ) 
poDenom = 0.0; pilDenom = 0.0 
for i in range(numTrainDocs): 
If trainCategory[i] == 1: 
# 人 @ (以 下 两 行 ) 向 量 相 加 
piNum += trainMatrix[i] 
piDenom += sum(trainMatrix[i]) 
else: 
pONum += trainMatrix[i] 
poDenom += sum(trainMatrix[i]) 
piVect = piNum/piDenom #change to lo0g() 
#@@ 对 每 个 元 素 做 除法 
povect = pONum/pODenom #change to lo0g() 
return pOVect, piVect, pAbusive 














代码 函数 中 的 输入 参数 为 文档 矩阵 trainMatrix， 以 及 由 每 篇 文档 类 别 
标签 所 构成 的 问 量 traincategory。 首先 ， 计 算 文档 属于 侮辱 性 文档 
(class=1) 的 概率 ， 即 P(1)。 因 为 这 是 一 个 二 类 分 类 问题 ， 所 以 可 以 
人 
改 。 





计算 p(w,|c,) 和 p(w,|c,)， 需 要 初始 化 程序 中 的 分 子 变 量 和 分 母 变 量 @，。 
由 于 w 中 元 素 如 此 众多 ， 因 此 可 以 使 用 NumPy 数 组 快速 计算 这 些 值 。 上 
述 程序 中 的 分 母 变 量 是 一 个 元 素 个 数 等 于 词汇 表 大 小 的 NumPy 数 组 。 

在 for 循 环 中 ， 要 抽 历 训练 集 trainMatrix 中 的 所 有 文档 。 一 旦 某 个 词语 
(侮辱 性 或 正常 词语 〉 在 某 一 文档 中 出 现 ， 则 该 词 对 应 的 个 数 〈p1Num 
或 者 pgNum) 就 加 1， 而 且 在 所 有 的 文档 中 ， 该 文档 的 总 词 数 也 相应 加 

1 信 ， 对 于 两 个 类 别 都 要 进行 同样 的 计算 处 理 。 


最 后 ， 对 每 个 元 素 除 以 该 类 别 中 的 总 词 数 @。 利 用 NumPy 可 以 很 好 实 
现 ， 用 一 个 数组 除 以 浮 点 数 即 可 ， 帮 使 用 常规 的 Python 列 表 则 难以 完成 
0 读者 可 以 自己 尝试 一 下 。 最 后 ， 函 数 会 返回 两 个 同 量 和 一 个 
既 骏 。 


接 下 来 试验 一 下 。 将 程序 清单 4-2 中 的 代码 深 加 到 bayes.py 文 件 中 ， 在 
Python 提示 符 下 输入 : 











>>> from numpy import * 
>>> reload(bayes) 
>>> listOPosts,1istClasses = bayes,1oadDataSet() 


该 语句 从 预先 加 载 值 中 调 入 数据 
>>> myVocabList = bayes.createVocabList(1listOPosts) 


至 此 我 们 构建 了 一 个 包含 所 有 词 的 列表 myvocabList。 


>>> trainMat=[] 
>>> for postinDoc in listOPosts: 
.. trainMat.append(bayes.setofwords2Vec(myVocabList, postinDoc)) 





该 for 循 环 使 用 词 向 量 来 填充 trainMat 列 表 。 下 面 给 出 属于 侮辱 性 文档 
的 概率 以 及 两 个 类 别 的 概率 问 量 。 


>>> pOQV, pi1V, pAb=bayes.trainNBO(trainMat,1istClasses) 


接 下 来 看 这 些 变量 的 内 部 值 : 


>>> pAb 
0.5 





这 就 是 任意 文档 属于 侮辱 性 文档 的 概率 。 


>>> pOV 


array([ 0.04166667, ”0.04166667， 0.04166667, 0. ， 0. 
0.04166667, 0. 0.04166667, 0. ， 9.04166667， 
0.04166667, 0.125 ]) 

>>> p1V 

array([ 0. ， 0. ， 0. ,0.05263158, 0.05263158, 
0. 0.15789474， 0. ， 0.05263158, 0. 

0. 0. 


首先 ， 我 们 发 现 文档 属于 侮辱 类 的 概率 pAb 为 0.5， 该 值 是 正确 的 。 接 下 
来 ， 看 一 看 在 给 定 文档 类 别 条 件 下 词汇 表 中 单词 的 出 现 概率 ， 看 看 是 否 
正确 。 词 汇 表 中 的 第 一 个 词 是 cute， 其 在 类 别 0 中 出 现 1 次 ， 而 在 类 别 1 中 
从 未 出 现 。 对 应 的 条 件 概 率 分 别 为 0.041 666 67 与 0.0。 该 计算 是 正确 
的 。 我 们 找 找 所 有 概率 中 的 最 大 值 ， 该 值 出 现在 P(1) 数 组 第 26 个 下 标 位 
置 ， 大 小 为 0.157 894 74。 在 myvocabList 的 第 26 个 下 标 位 置 上 可 以 查 到 
这 意味 着 stupid 是 最 能 表征 类 别 1 (侮辱 性 文档 类 ) 的 
单词 。 

使 用 该 函数 进行 分 类 之 前 ， 还 需 解 决 函数 中 的 一 些 缺 陷 。 

4.5.3 测试 算法 : 根据 现实 情况 修改 分 类 器 

利用 贝 叶 斯 分 类 器 对 文档 进行 分 类 时 ， 要 计算 多 个 概率 的 乘积 以 获得 文 
档 属 于 某 个 类 别 的 概率 ， 即 计算 p(w,|1)p(w,11)p(w,|1)。 如 果 其 中 一 个 
概率 值 为 0， 那 么 最 后 的 乘积 也 为 0。 为 降低 这 种 影响 ， 可 以 将 所 有 词 的 
出 现 数 初始 化 为 1， 并 将 分 母 初始 化 为 2。 


0 并 将 trainNB9( ) 的 第 4 行 和 第 5 行 修 
改 为 : 











poNum = ones(numWords); piNum = ones(numWords) 
poDenom = 2.0; plilDenom = 2.0 








男 一 个 过 到 的 问题 是 下 淤 出 ， 这 是 由 于 太 多 很 小 的 数 相 乘 造成 的 。 当 计 
算 乘 积 p(w,|ci)p(w|ci)p(w,1ci;).. .p(w1c;) 时 ， 由 于 大 部 分 因子 都 非 禹 
小 ， 所 以 程序 会 下 洪 出 或 者 得 到 不 正确 的 答案 。 〈 读 者 可 以 用 Python 党 


试 相 乘 许多 很 小 的 数 ， 最 后 四 侈 五 入 后 会 得 到 0。) 一 种 解决 办 法 是 对 
乘积 取 目 然 对 数 。 在 代数 中 有 1n(a*b) = ln(a)+ln(b)， 于 是 通过 求 对 数 
可 以 避免 下 洲 出 或 者 浮上 数 合 入 导致 的 错误 。 同 时 ， 采 用 自然 对 数 进行 
处 理 不 会 有 任何 损失 。 图 4-4 给 出 函数 f(x) 与 1n(f(x)) 的 曲线 。 检 查 这 两 
条 曲线 ， 就 会 有 友 现 它们 在 相同 区 域内 同时 增加 或 者 减少 ， 并 且 在 相同 点 
上 取 到 极 值 。 它 们 的 取 值 虽然 不 同 ， 但 不 影响 最 终结 果 。 通 过 修 

改 return 前 的 两 行 代码 ， 将 上 述 做 法 用 到 分 类 器 中 : 


piVect = log(piNum/piDenom) 
povect = log(pONum/pODenom) 
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图 4-4 ”函数 f(x) 与 1n(f(x)) 会 一 块 增 大 。 这 表明 想 求 函数 的 最 大 值 
时 ， 可 以 使 用 该 函数 的 自然 对 数 来 蔡 换 原 函 数 进行 求解 


现在 已 经 准备 好 构建 完整 的 分 类 器 了 。 当 使 用 NumPy 回 量 处 理 功 能 时 ， 


人 单 。 打 开 文 本 编辑 器 ， 将 下 面 的 代码 添加 到 bayes.py 


程序 清单 4-3 ” 朴 系 贝 叶 斯 分 类 函数 


def classifyNB(vec2Classify, pOVec, piVec, pClass1): 
#@ 元 素 相 乘 
pi = sum(vec2Classify * piVec) + log(pClass1) 
p0 = sum(vec2Classify * pOVec) + log(1.0 - pClass1) 
If pi > p0: 
return 1 
else: 
return 0 


de 


h 


testingNB( ) : 
listOPosts,1istClasses = LoadDataSet() 
myVocabList = createVocabList(1listOPosts) 
trainMat=[] 
for postinDoc in listOPosts: 
trainMat .append(setofWords2Vec(myVocabList, postinDoc)) 
pOV, pi1V, pAb = trainNBO(array(trainMat),array(listClasses)) 
testEntry = ['love', 'my', 'dalmation'] 
thisDoc = array(setofWords2Vec(myVocabList, testEntry)) 
print testEntry,'classified as: ',classifyNB(thisDoc,pOV,pi1V,pAb) 
testEntry = ['stupid', 'garbage'] 
thisDoc = array(setofWords2Vec(myVocabList, testEntry)) 
print testEntry,'classified as: ',classifyNB(thisDoc,pOV,pi1V,pAb) 


程序 清单 4-3 的 代码 有 4 个 输入 : 要 分 类 的 同 量 vec2classify 以 及 使 用 函 
数 trainNB0( ) 计 算得 到 的 三 个 概率 。 使 用 NumpPy 的 数组 来 计算 两 个 向 量 
相 乘 的 结果 @。 这 里 的 相 乘 是 指 对 应 元 素 相 乘 ， 即 先 将 两 个 向 量 中 的 第 
1 个 元 素 相 乘 ， 然 后 将 第 2 个 元 素 相 乘 ， 以 此 类 推 。 接 下 来 将 词汇 表 中 所 
有 词 的 对 应 值 相 加 ， 然 后 将 该 值 加 到 类 别 的 对 数 概率 上 。 最 后 ， 比 较 关 
别 的 概率 返回 大 概率 对 应 的 类 别 标签 。 这 一 切 不 是 很 难 ， 对 吧 ? 


代码 的 第 二 个 函数 是 一 个 便利 函数 (convenience function) ， 该 函数 封 
装 所 有 操作 ， 以 节省 输入 4.3.1 节 中 代码 的 时 间 。 


下 面 来 看 看 实际 结果 。 将 程序 清单 4-3 中 的 代码 添加 之 后 ， 在 Python 提示 
从 下 输入 : 


>>> reload(bayes) 

<module 'bayes' from 'bayes.pyc'> 

>>>bayes .testingNB() 

['love', 'my', 'dalmation'] classified as: 0 
['stupid', 'garbage'] classified as: 1 








对 文本 做 一 些 修改 ， 看 看 分 类 幽会 输出 什么 结果 。 这 个 例子 非常 简单 ， 
但 是 它 展示 了 朴素 贝 叶 斯 分 类 器 的 工作 原理 。 接 下 来 ， 我 们 会 对 代码 做 
些 修 改 ， 使 分 类 器 工作 得 更 好 。 


4.5.4 准备 数据 : 文档 词 袋 模型 


目前 为 止 ， 我 们 将 每 个 词 的 出 现 与 否 作为 一 个 特征 ， 这 可 以 被 描述 为 词 
集 模 型 〈set-of-words model) 。 如 果 一 个 词 在 文档 中 出 现 不 止 一 次 ， 这 
可 能 意味 着 包含 该 词 是 否 出 现在 文档 中 所 不 能 表达 的 某 种 信息 ， 这 种 方 
法 被 称 为 词 袋 模型 (bag-of-words ”model) 。 在 词 袋 中 ， 每 个 单词 可 以 
出 现 多 次 ， 而 在 词 集中 ， 每 个 词 只 能 出 现 一 次 。 为 适应 词 袋 模型 ， 需 要 
对 函数 setofwords2vec() 稍 加 修改 ， 修 改 后 的 函数 称 

为 bagofwords2Vec() 。 


下 面 的 程序 清单 给 出 了 基于 词 袋 横 型 的 朴素 贝 叶 斯 代码 。 它 与 函 
数 setofwords2vec( ) 几乎 完 全 相同 ， 唯 一 不 同 的 是 每 当 遇 到 一 个 单词 
时 ， 它 会 增加 词 向 量 中 的 对 应 值 ， 而 不 只 是 将 对 应 的 数值 设 为 1。 


程序 清单 4-4 朴 系 贝 叶 斯 词 袋 模型 


def bagOofwords2VecMN(vocabList, inputSet): 
returnVec = [0]*len(vocabList) 
for word in inputSet: 
if word in vocabList: 




















returnVec[vocabList.index(word)] += 1 
return returnVec 


现在 分 类 器 已 经 构建 好 了 ， 下 面 我 们 将 利用 该 分 类 器 来 过 滤芯 圾 邮件 。 





4.6 示例 : 使 用 杆 系 贝 叶 斯 过 涛 垃圾 邮件 


在 前 面 那个 简单 的 例子 中 ， 我 们 引入 了 字符 串 列 表 。 使 用 朴素 贝 叶 斯 解 
决 一 些 现实 生活 中 的 问题 时 ， 需 要 先 从 文本 内 容 得 到 字符 串 列表 ， 然 后 
生成 词 癌 量 。 下 面 这 个 例子 中 ， 我 们 将 了 解 朴素 贝 叶 斯 的 一 个 最 著名 的 
应 用 : 电子 邮件 垃圾 过 小 。 弟 先 看 一 下 如 何 使 用 通用 框架 来 解决 该 问 


题 。 


示例 : 使 用 朴素 贝 叶 斯 对 电子 邮件 进行 分 类 


. 收集 数据 : 提供 文本 文件 。 

. 准备 数据 : 将 文本 文件 解析 成 词 条 问 量 。 

. 分 析 数 据 : 检查 词 条 确保 解析 的 正确 性 。 

. 训练 算法 : 使 用 我 们 之 前 建立 的 trainNB0( ) 函 数 。 

. 测试 算法 : 使 用 classifyNB()， 并 且 构 建 一 个 新 的 测试 函数 来 计算 
文档 集 的 错误 率 。 

. 使 用 算法 : 构建 一 个 完整 的 程序 对 一 组 文档 进行 分 类 ， 将 错 分 的 文 
档 输出 到 屏幕 上 。 


下 面 首 先 给 出 将 文本 解析 为 词 条 的 代码 。 然 后 将 该 代码 和 前 面 的 分 类 代 
码 集成 为 一 个 函数 ， 该 函数 在 测试 分 类 器 的 同时 会 给 出 错误 率 。 


4.6.1 准备 数据 : 切 分 文本 

前 一 节 介 绍 了 如 何 创 建 词 同 量 ， 并 基于 这 些 词 癌 量 进行 朴素 贝 叶 斯 分 类 
的 过 程 。 前 一 节 中 的 词 癌 量 是 预先 给 定 的 ， 下 面 介绍 如 何 从 文本 文档 中 
构建 自己 的 词 列表 。 


对 于 一 个 文本 字符 串 ， 可 以 使 用 Python 的 string.split() 方 法 将 其 切 
分 。 下 面 看 看 实际 的 运行 效果 。 在 Python 提示 符 下 输入 : 
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>>> mySent='This book is the best book on Python or M.L. I have ever laid eyes up!' 
>>> mySent .split() 
['This', 'book', 'is', 'the', 'best', 'book', 'on', 'Python’', 'or', 'M.L.','I', '| 


可 以 看 到 ， 切 分 的 结果 不 错 ， 但 是 标点 符号 也 被 当成 了 词 的 一 部 分 。 可 
以 使 用 正则 表示 式 来 切 分 句子 ， 其 中 分 隔 符 是 除 单词 、 数 字 外 的 任意 字 
符 串 。 

>>> import re 

>>> regEx = re.compile('\\W*' 

>>> listofTokens = regEx.split(mySent) 


>>> listofTokens 
['This', 'book', 'is', 'the', 'best', 'book', 'on', 'Python’', 'or', 'M', ‘'L', 


现在 得 到 了 一 系列 词组 成 的 词 表 ， 但 是 里 面 的 空 字符 串 需 要 去 掉 。 可 以 
计算 每 个 字符 串 的 长 度 ， 只 返回 长 度 大 于 0 的 字符 串 。 


>>> [tok for tok in listofTokens if len(tok) > 0] 





最 后 ， 我 们 发 现 句 子 中 的 第 一 个 单词 是 大 写 的 。 如 果 目 的 是 句子 查找， 
那么 这 个 特点 会 很 有 用 。 但 这 里 的 文本 只 看 成 词 袋 ， 所 以 我 们 希望 所 有 
词 的 形式 都 是 统一 的 ， 不 论 它 们 出 现在 句子 中 间 、 结 尾 还 是 开头 。 


Python 中 有 一 些 内 内 的 方法 可 以 将 字符 串 全 部 转换 成 小 号 〈,1lower()) 或 
者 大 写 .upper()) ， 借 助 这 些 方法 可 以 达到 目的 。 于 是 ， 可 以 进行 如 下 
处 理 : 


>>> SS 和 fOr tok in listofTokens if 人 > 0] 
['this', "book'， 'is', 'the', 'best', 'book', 'on', 'python', 'or', 'm', "1', ‘'i' 


现在 来 看 数据 集中 一 封 完整 的 电子 邮件 的 实际 处 理 结果 。 该 数据 集 放 在 
email 文 件 夹 中 ， 该 文件 夹 义 包含 两 个 子 文件 夹 ， 分 别 是 spam 与 ham。 


>>> emailText = open('email/ham/6.txt').read() 
>>> listofTokens=regEx.split(emailText) 








文件 夹 ham 下 的 6.txt 文 件 非常 长 ， 这 是 某 公 司 告知 我 他 们 不 再 进行 某 些 
文 持 的 一 封 邮件 。 需 要 注意 的 是 ， 由 于 是 URL: answer.py? 
hl=en&answer=174623 的 一 部 分 ， 因 而 会 出 现 en 和 py 这 样 的 单词 。 当 对 
URL 进 行 切 分 时 ， 会 得 到 很 多 的 词 。 我 们 是 想 去 掉 这 些 单词 ， 因 此 在 实 
现时 会 过 滤 挥 长 度 小 于 3 的 字符 串 。 本 例 使 用 一 个 通用 的 文本 解析 规则 
来 实现 这 一 点 。 在 实际 的 解析 程序 中 ， 要 用 更 高 级 的 过 滤器 来 对 诸如 
HIML 和 URI 的 对 象 进 行 处 理 。 目 前 ， 一 个 URI 最 终 会 解析 成 词汇 表 中 


的 单词 ， 比 如 www.whitehouse.gov 会 被 解析 为 三 个 单词 。 文 本 解析 可 能 
是 一 个 相当 复杂 的 过 程 。 接 下 来 将 构建 一 个 极其 简单 的 函数 ， 你 可 以 根 
据 情况 自行 修改 。 


4.6.2 测试 算法 : 使 用 朴素 贝 叶 斯 进行 交叉 验证 

下 面 将 文本 解析 器 集成 到 一 个 完整 分 类 需 中 。 打 开 文 本 编辑 器 ， 将 下 面 
程序 清单 中 的 代码 添加 到 bayes .py 文件 中 。 

程序 清单 4-5 ”文件 解析 及 完整 的 垃圾 邮件 测试 函数 


def textParse(bigString ): 
Import re 
listofTokens = re.split(r'\W*', bigString) 
return [tok.lower() for tok in listofTokens if len(tok) > 2] 








def spamTest(): 
docList=[]; classList = []; fullText =[] 
for i in range(1,26): 
#@ (以 下 七 行 ) 导入 并 解析 文本 文件 
wordList = textParse(open('email/spam/%d.txt' % i).read()) 
docList.append(wordList) 
fullText.extend(wordList) 
classList.append(1) 
wordList = textParse(open('email/ham/%d.txt' % i).read()) 
docList.append(wordList) 
fullText.extend(wordList) 
classList.append(0) 
vocabList = createVocabList(docList) 
trainingSet = range(50); testSet=[] 
# 人 @ (以 下 四 行 ) 随 机 构建 训练 集 
for i in range(10): 
randIndex = int(random.uniform(0,1len(trainingSet))) 
testSet ,append(trainingSet[randIndex]) 
del(trainingSet[randIindex]) 
trainMat=[]; trainClasses = [] 
for docIndex in trainingSet : 
trainMat .append(setofwords2Vec(vocabList，docList[docIndex])) 
trainClasses.append(classList[docIindex]) 
pOV, pi1V, pSpam = trainNBoO(array(trainMat),array(trainClasses)) 
errorCount = 0 
# 人 @ (以 下 四 行 ) 对 测试 集 分 类 
for docIndex in testSet: 
wordVector = Setofwords2Vec(VvocabList，docList[docIndex]) 
If classifyNB(array(wordVector),pOV,pi1V,pSpam) != 
classList[docIindex]: 
errorCount += 1 
print 'the error rate is: ',float(errorCount)/len(testSet) 














第 一 个 函数 textParse() 接 受 一 个 大 字符 串 并 将 其 解析 为 字符 串 列 表 。 
该 函数 去 挥 少 于 两 个 字符 的 字符 串 ， 并 将 所 有 字符 串 转 换 为 小 写 。 你 可 





以 在 函数 中 添加 更 多 的 解析 操作 ， 但 是 目前 的 实现 对 于 我 们 的 应 用 足够 
Ta 


第 二 个 函数 spamTest() 对 贝 叶 斯 垃圾 邮件 分 类 器 进行 自动 化 处 理 。 导 入 
文件 夹 spam 与 ham 下 的 文本 文件 ， 并 将 它们 解析 为 词 列表 @。 接 下 来 构 
府 一 个 测试 集 与 一 个 训练 集 ， 两 个 集合 中 的 邮件 都 是 随机 选 出 的 。 本 例 
中 共有 50 封 电子 邮件 ， 并 不 是 很 多 ， 其 中 的 10 封 电子 邮件 被 随机 选择 为 
测试 集 。 分 类 堪 所 需要 的 概率 计算 只 利用 训练 集中 的 文档 来 完成 。 
Python 变量 trainingset 是 一 个 整数 列表 ， 其 中 的 值 从 0 到 49。 接 下 来 ， 
随机 选择 其 中 10 个 文件 留 。 选择 出 的 数字 所 对 应 的 文档 被 添加 到 测试 
集 ， 同 时 也 将 其 从 训练 集中 剔除 。 这 种 随机 选择 数据 的 一 部 分 作为 训练 
集 ， 而 剩余 部 分 作为 测试 集 的 过 程 称 为 留存 交叉 验证 (hold-out cross 
validation〉。 假 定 现在 只 完成 了 一 次 迭代 ， 那 么 为 了 更 精确 地 估计 分 类 
器 的 错误 率 ， 束 应 该 进行 多 次 迭代 后 求 出 平均 错误 率 。 


接 下 来 的 for 循 环 遍历 训练 集 的 所 有 文档 ， 对 每 封 邮件 基于 词汇 表 并 使 
用 setofwords2Vec() 函 数 来 构建 词 同 量 。 这 些 词 在 traindNB0() 了 水 数 中 用 
于 计算 分 类 所 需 的 概率 。 然 后 遍历 测试 集 ， 对 其 中 每 封 电子 邮件 进行 分 
类 @。 如 果 邮 件 分 类 错误 ， 则 错误 数 加 1， 最 后 给 出 总 的 错误 百分比 。 


下 面 对 上 述 过 程 进 行 答 试 。 输 入 程序 清单 4-5 的 代码 之 后 ， 在 Python 提示 
从 下 输入 : 


>>> bayes.spamTest() 

the error rate is: 0.0 

>>> bayes.spamTest() 

classification error ['home', 'based', 'business', 'opportunity', 'knocking', 'yol 
the error rate is: 0.1 




















函数 spamTest () 会 输出 在 10 封 随机 选择 的 电子 邮件 上 的 分 类 错误 率 。 既 
然 这 些 电子 邮件 是 随机 选择 的 ， 所 以 每 次 的 输出 结果 可 能 有 些 差 别 。 如 
果 发 现 错误 的 话 ， 函 数 会 输出 错 分 文档 的 词 表 ， 这 样 就 可 以 了 解 到 底 是 
哪 篇 文档 发 生 了 错误 。 如 果 想 要 更 好 地 估计 错误 率 ， 那 么 就 应 该 将 上 述 
过 程 重复 多 次 ， 比 如 说 10 次 ， 然 后 求 平均 值 。 我 这 么 做 了 一 下 ， 获 得 的 
平均 错误 率 为 6%。 


这 里 一 直 出 现 的 错误 是 将 垃圾 邮件 误 判 为 正 闻 邮件 。 相 比 之 下 ， 将 志 圾 
邮件 误 判 为 正常 邮件 要 比 将 正常 邮件 归 到 垃圾 邮件 好 。 为 避免 错误 ， 有 
多 种 方式 可 以 用 来 修正 分 类 器 ， 这 些 将 在 第 7 章 中 进行 讨论 。 





目前 我 们 已 经 使 用 朴素 贝 叶 斯 来 对 文档 进行 分 类 ， 接 下 来 将 介绍 它 的 妃 
0 。 下 一 个 例子 还 会 给 出 如 何 解释 朴 么 贝 叶 斯 分 类 嚣 训练 所 得 到 
知识 。 





4.7 示例 : 使 用 朴素 贝 叶 斯 分 类 需 从 个 人 
广告 中 获取 区 域 倾 回 


本 章 的 最 后 一 个 例子 非常 有 趣 。 我 们 前 面 介绍 了 朴素 贝 叶 斯 的 两 个 实际 
应 用 的 例子 ， 第 一 个 例子 是 过 滤 网 站 的 恶意 留言 ， 第 二 个 是 过 涛 垃圾 邮 
件 。 分 类 还 有 大 量 的 其 他 应 用 。 我 曾经 见 过 有 人 使 用 朴 系 贝 叶 斯 从 他 喜 
欢 及 不 辟 欢 的 女性 的 社区 网 络 档案 学 习 相 应 的 分 类 需 ， 然 后 利用 该 分 类 
器 测试 他 是 否 会 喜欢 一 个 陌生 女人 。 分 类 的 可 能 应 用 确实 有 很 多 ， 比 如 
有 证 据 表 示 ， 人 的 年 龄 越 大 ， 他 所 用 的 词 也 越 好 。 那 么 ， 可 以 基于 一 个 
人 的 用 词 来 推测 他 的 年 龄 吗 ? 除了 年 龄 之 外 ， 还 能 人 否 推测 其 他 方面 ? 广 
告 商 往往 想 知 道 天 于 一 个 人 的 一 些 特定 人 口 统计 信息 ， 以 便 能 够 更 好 地 
定 癌 推销 广告 。 从 哪里 可 以 获得 这 些 训练 数据 呢 ? 事实 上 ， 互 联网 上 拥 
有 大 量 的 训练 数据 。 几 乎 任 一 个 能 想到 的 利 基 市 场 ' 都 有 专业 社区 ， 很 多 
0 
了 的 例子 。 


1， 利 基 (niche》 是 指针 对 企业 的 优势 细 分 出 来 的 市 场 ， 这 个 市 场 不 大 ， 而 且 没 有 得 到 令 人 满意 的 服务 。 产 品 推进 这 个 市 场 ， 有 强 利 的 基础 。 在 这 里 特 指针 对 性 和 专业 性 都 很 强 的 
产品 。 也 就 是 说 ， 利 基 是 细 分 市 场 没有 被 服务 好 的 群体 。 一 一 译 者 注 


在 这 个 最 后 的 例子 当中 ， 我 们 将 分 别 从 美国 的 两 个 城市 中 选取 一 些 人 ， 
通过 分 析 这 些 人 发 布 的 征婚 广告 信息 ， 来 比较 这 两 个 城市 的 人 们 在 广告 
用 词 上 是 否 不 同 。 如 果 结 论 确 实 是 不 同 ， 那 么 他 们 各 自 和 常用 的 词 是 哪 
人 
办 2 











示例 : 使 用 杆 素 贝 叶 斯 来 友 现 地 域 相关 的 用 词 


.收集 数据 : 从 RSS 源 收集 内 容 ， 这 里 需要 对 RSS 源 构建 一 个 接口 。 
. 准备 数据 : 将 文本 文件 解析 成 词 条 问 量 。 

. 分 析 数 据 : 检查 词 条 确保 解析 的 正确 性 。 

. 训练 算法 : 使 用 我 们 之 前 建立 的 trainNB0() 函 数 。 

.测试 算法 : 观察 错误 率 ， 确 保 分 类 器 可 用 。 可 以 修改 切 分 程序 ， 以 
降低 错误 率 ， 提 高 分 类 结果 。 


. 使 用 算法 : 构建 一 个 完整 的 程序 ， 封 装 所 有 和 内容 。 给 定 两 个 RSS 
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源 ， 该 程序 会 显示 最 第 用 的 公共 词 。 


下 面 将 使 用 来 自 不 同城 市 的 广告 训练 一 个 分 类 器 ， 然 后 观察 分 类 器 的 效 
果 。 我 们 的 目的 并 不 是 使 用 该 分 类 器 进行 分 类 ， 而 是 通过 观察 单词 和 条 
件 概 率 值 来 及 现 与 特定 城市 相关 的 内 容 。 


4.7.1 收集 数据 : 导入 RSS 源 
接 下 来 要 做 的 第 一 件 事 是 使 用 Python 下 载 文 本 。 幸 好， 利用 RSS， 这 些 


文本 很 容易 得 到 。 现 在 所 需要 的 是 一 个 RSS 阅 读 硕 。Universal Feed 
Parser 是 Python 中 最 常用 的 RSS 程 序 库 。 











你 可 以 在 http://code.google.com/p/feedparser/ 下 浏览 相关 文档 ， 然 后 和 其 
他 Python 包 一 样 来 安装 feedparse。 首 先 解 压 下 载 的 包 ， 并 将 当前 目录 切 
换 到 解压 文件 所 在 的 文件 来， 然后 在 Python 提 示 符 下 融入 >>python 


setup.py install。 


下 面 使 用 Craigslist 上 的 个 人 广告 ， 当 然 希 望 是 在 服务 条 款 允 许 的 条 件 
下 。 打 开 Craigslist 上 的 RSS 源 ， 在 Python 提示 符 下 输入 : 


>>> Import feedparser 
>>>ny=feedparser.parse('http://newyork.craigslist.org/stp/index.rss') 





我 决定 使 用 Craigslist 中 比较 纯洁 的 那 部 分 内 容 ， 其 他 内 容 稍 显 少 儿 不 
宜 。 你 可 以 查阅 feedparser.org 中 出 色 的 说 明文 档 以 及 RSS 源 。 要 访问 所 
有 条 目的 列表 ， 输 入 : 


>>> ny['entries'] 
>>> len(ny['entries']) 
100 





可 以 构建 一 个 类 似 于 spamTest() 的 函数 来 对 测试 过 程 目 动 化 。 打 开 文 本 
编辑 器 ， 输 入 下 列 程序 清单 中 的 代码 。 


程序 清单 4-6 RSS 源 分 类 器 及 高 频 词 去 除 函 数 


#@@〈 以 下 四 行 ) 计算 出 现 频率 








def calcMostFreq(vocabList,fullText ) : 
import operator 
freqDict = {} 
for token in vocabList: 
freqDict[token]=fullText.count(token) 
sortedFreq = sorted(freqDict,.iteritems(), key=operator.itemgetter(1), reverse: 
return sortedFreq[:30] 


def localwords(feed1,feed0): 
import feedparser 
docList=[]; classList = []; fullText =[] 
minLen = min(len(feedi['entries']),1len(feedo['entries'])) 
for i in range(minLen): 
# 人 @ 每 次 访问 一 条 RSS 源 
wordList = textParse(feedi['entries'][i]['summary']) 
docList.append(wordList) 
fullText.extend(wordList) 
classList.append(1) 
wordList = textParse(feedo['entries'][i]['summary']) 
docList.append(wordList) 
fullText.extend(wordList) 
ClassList,append(0) 
# 信 (以 下 四 行 ) 去 掉 出 现 次 数 最 高 的 那些 词 
vocabList = createVocabList(docList) 
top30Words = calcMostFreq(vocabList, fullText) 
for pairwW in top30Words: 
If pairw[0] in vocabList: vocabList.remove(pairw[0]) 
trainingSet = range(2*minLen); testSet=[] 
for i in range(20): 
randIndex = int(random.uniform(0,1en(trainingSset))) 
testSet ,append(trainingSet[randIndex]) 
del(trainingSet[randIindex]) 
trainMat=[]; trainClasses = [] 
for docIndex in trainingSet : 
trainMat .append(bagofwords2VecMN(VvVocabList，docList[docIndex]) ) 
trainClasses.append(classList[docIindex]) 
pOV, pi1V, pSpam = trainNBoO(array(trainMat),array(trainClasses)) 
errorCount = 0 
for docIndex in testSet: 
wordVector = bagofwords2VecMN(vVocabList，docList[docIndex]) 
if classifyNB(array(wordVector),pOV,piV,pSpam) != \ 
classList[docIindex]: 
errorCount += 1 
print 'the error rate is: ',float(errorCount)/len(testSet) 
return vocabList, pov,p1V 




















上 述 代 码 类 似 程序 清单 4-5 中 的 函数 spamTest()， 不 过 添加 了 新 的 功能 。 

代码 中 引入 了 一 个 辅助 函数 calcMostFreq() @。 该 函数 遍历 词汇 表 中 的 
每 个 词 并 统计 它 在 文本 中 出 现 的 次 数 ， 然 后 根据 出 现 次 数 从 高 到 低 对 词 
,0 最 后 返回 排序 最 高 的 30 个 单词 。 你 很 快 就 会 明白 这 个 函数 
了 ee 


下 函数 localwords( ) 使 用 两 个 RSS 源 作为 参数 。 RSS 源 要 在 函数 外 
导入 ， 这 样 做 的 原因 是 RSS 源 会 随时 间 而 改变 。 如 果 想 通过 改变 代码 来 





比较 程序 执行 的 差异 ， 就 应 该 使 用 相同 的 输入 。 重 新 加 载 RSS 源 就 会 得 

到 新 的 数据 ， 但 很 难 确定 是 代码 原因 还 是 输入 原因 导致 输 出 结果 的 改 

变 。 函 数 localwords() 与 程序 清单 4-5 中 的 spamTest() 函 数 儿 乎 相同 ， 区 

别 在 于 这 里 访问 的 是 RSS 源 仿 而 不 是 文件 。 然 后 调用 机 

数 calcMostFreq( ) 来 获得 排序 最 高 的 30 个 单词 并 随后 将 它们 移 除 人 全。 也 

0 不 同 的 是 最 后 一 行 要 返回 下 面 要 
1j 的 住 。 


你 可 以 注释 挥 用 于 移 除 高 频 词 的 三 行 代 码 ， 然 后 比较 注释 前 后 的 分 类 性 
能 全 。 我 自己 也 尝试 了 一 下 ， 去 掉 这 几 行 代码 之 后 ， 我 发 现 错 误 率 为 

54%， 而 保留 这 些 代 码 得 到 的 错误 率 为 70%。 这 里 观察 到 的 一 个 有 趣 现 
象 是 ， 这 些 留言 中 出 现 次 数 最 多 的 前 30 个 词 涵盖 了 所 有 用 词 的 30%。 我 
在 进行 测试 的 时 候 ，vocabList 的 大 小 约 为 3000 个 词 。 也 束 是 说 ， 词 汇 

表 中 的 一 小 部 分 单词 却 占 据 了 所 有 文本 用 词 的 一 大 部 分 。 产 生 这 种 现象 
的 原因 是 因为 语言 中 大 部 分 都 是 元 余 和 结构 辅助 性 内 容 。 另 一 个 常用 的 
方法 是 不 仅 移 除 高 频 词 ， 同 时 从 某 个 预定 词 表 中 移 除 结构 上 的 辅助 词 。 

该 词 表 称 为 停 用 词 表 (stop word list) ， 目 前 可 以 找到 许多 停 用 词 表 
(在 本 书写 作 期 间 ，http:/www.ranks.nl/resources/stopwords.html 上 有 一 


个 很 好 的 多 语言 停 用 词 列 表 ) 。 



































将 程序 清单 4-6 中 的 代码 加 入 到 payes.py 文 件 之 后 ， 可 以 通过 输入 
如 下 命令 在 Python 中 进行 测试 : 


>>> reload(bayes) 

<module 'bayes' from 'bayes.py'> 
>>>ny=feedparser.parse('http://newyork.craigslist.org/stp/index.rss') 
>>>sf=feedparser.parse('http://sfbay.craigslist.org/stp/index.rss') 
>>> vocabList, pSF,PpNY=bayes.1localwords(ny, sf) 

the error rate is: 0.1 

>>> vocabList, pSF, PpNY=bayes.1localwords(ny, sf) 

the error rate is: 0.35 


为 了 得 到 错误 率 的 精确 估计 ， 应 该 多 次 进行 上 述 实验 ， 然 后 取 平 均值 。 
这 里 的 错误 率 要 远 高 于 垃圾 邮件 中 的 错误 率 。 由 于 这 里 关注 的 是 单词 概 
率 而 不 是 实际 分 类 ， 因 此 这 个 问题 倒 不 严重 。 可 以 通过 函 

数 caclMostFreq() 改 变 委 移 除 的 单词 数目 ， 然 后 观察 错误 率 的 变化 情 
况 。 


4.7.2 ”分 析 数 据 : 显示 地 域 相关 的 用 词 

















可 以 先 对 向 量 pSF 与 PNY 进 行 排序 ， 然 后 按照 顺 友 将 词 打印 出 来 。 下 面 
的 最 后 一 段 代码 会 完成 这 部 分 工作 。 再 次 打开 bayes.py 文 件 ， 将 下 面 的 








代码 添加 到 文件 中 。 
程序 清单 4-7 最 具 表 征 性 的 词汇 显示 函数 


def getTopwords(ny, sf): 
import operator 
vocabList, pOV, pi1V=localwWords(ny, sf) 
topNY=[]; topSF=[] 
for i in range(len(pOV)): 
If pOV[i] > -6.0 : topSF,.append((vocabList[I]l,pov[I]) ) 
if piV[i] > -6.0 : topNY.append( (vocabList[i],piV[i])) 


sortedSF = sorted(topSF, key=lambda pair: pair[1], reverse=True) 


print “SE**SF**SF**SE* OF :TOF SF* “SF SF SF SF SF SF = SF 
for item in sortedSF: 
print item[0] 


sortedNY = sorted(topNY, key=lambda pair: pair[1], reverse=True) 
print "NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY**NY **" 


for item in sortedNY: 
print item[0] 


程序 清单 4-7 中 的 函数 getTopwords() 使 用 两 个 RSS 源 作为 输入 ， 


然后 训 


练 并 测试 朴 么 贝 叶 斯 分 类 器， 返回 使 用 的 概率 值 。 然 后 创建 两 个 列表 用 
于 元 组 的 存储 。 与 之 前 返回 排名 最 高 的 X 个 蛙 词 不 同 ， 这 里 可 以 返回 大 
于 茶 个 国 值 的 所 有 词 。 这 些 元 组 会 按照 它们 的 条 件 概 率 进 行 排序 。 


es 下 实际 的 运行 效果 ， 保 存 bayes.py 文 件 ， 在 Python 提示 符 下 输 





>>> reload(bayes) 

<module 'bayes' from 'bayes.pyc'> 
>>> bayes.getTopwords(ny, sf) 

the error rate is: 0.2 
SF**SF**SF* *SF**SF**SF**SF**SF**SE* *SF**SF**SF**SF**SF**SFE* *SF** 
Jove 

time 

will 

there 

hit 

send 

francisco 

female 

NY**NY**NY* *NY**NY**NY**NY**NY**NY* *NY**NY**NY**NY**NY**NY* *NY** 
friend 

people 

will 

single 

sex 

female 

night 


420 
relationship 
play 

hope 





最 后 输出 的 单词 很 有 意思 。 值 得 注意 的 现象 是 ， 程 序 输出 了 大 量 的 停 用 
词 。 移 除 固 定 的 停 用 词 看 看 结果 会 如 何 变化 也 十 分 有 趣 。 依 我 的 经 验 来 
看 ， 这 样 做 的 话 ， 分 类 错误 率 也 会 降低 。 


4.8 ”本章 小 结 


对 于 分 类 而 言 ， 使 用 概率 有 时 要 比 使 用 硬 规 则 更 为 有 效 。 贝 叶 斯 概率 及 
贝 叶 斯 准则 提供 了 一 种 利用 已 知 值 来 估计 未 知 概率 的 有 效 方法 。 


可 以 通过 特征 之 间 的 条 件 独立 性 假设 ， 降 低 对 数据 量 的 需求 。 独 立 性 假 
设 是 指 一 个 词 的 出 现 概 率 并 不 依赖 于 文档 中 的 其 他 词 。 当 然 我 们 也 知道 
这 个 假设 过 于 简单 。 这 就 是 之 所 以 称 为 朴素 贝 叶 斯 的 原因 。 尽 管 条 件 独 
立 性 假设 并 不 正确 ， 但 是 朴素 贝 叶 斯 仍然 是 一 种 有 效 的 分 类 器 。 


利用 现代 编程 语言 来 实现 朴素 贝 叶 斯 时 需要 考虑 很 多 实际 因素 。 下 洲 出 
就 是 其 中 一 个 问题 ， 它 可 以 通过 对 概率 取 对 数 来 解决 。 词 袋 模型 在 解决 
文档 分 类 问题 上 比 词 集 模型 有 所 提高 。 还 有 其 他 一 些 方面 的 改进 ， 比 如 
说 移 除 俘 用 词 ， 当 然 也 可 以 花 大 量 时 间 对 切 分 器 进行 优化 。 


本 章 学 习 到 的 概率 理论 将 在 后 续 章 节 中 用 到 ， 夯 外 本 章 也 给 出 了 有 关中 
叶 斯 概率 理论 全 面具 体 的 介绍 。 接 下 来 的 一 章 将 暂时 不 再 讨论 概率 理论 
这 一 话题 ， 介 绍 另 一 种 称 作 Logistic 回 归 的 分 类 方法 及 一 些 优化 算法 。 














第 5 章 ”Logistic 加 |] 归 


本 章 内 容 


Sigmoid 函 数 和 Logistic 回 归 分 类 器 
最 优化 理论 初步 
梯度 下 降 最 优化 算法 
数据 中 的 缺失 项 处 理 


这 会 是 激动 人 心 的 一 章 ， 因 为 我 们 将 首次 接触 到 最 优化 算法 。 仔 细 想 想 
就 会 发 现 ， 其 实 我 们 日 党 生活 中 遇 到 过 很 多 最 优化 问题 ， 比 如 如 何在 最 
短 时 间 内 从 A 点 到 达 B 点 ? 如 何 投入 最 少 工作 量 却 获 得 最 大 的 效益 ?如 
何 设 计 发 动机 使 得 油耗 最 少 而 功率 最 大 ? 可见， 最 优化 的 作用 十 分 强 
大 。 接 下 来 ， 我 们 介绍 几 个 最 优化 算法 ， 并 利用 它们 训练 出 一 个 非 线性 
函数 用 于 分 类 。 


读者 不 数 悉 回归 也 没关系 ， 第 8 章 起 会 深入 介绍 这 一 主题 。 假 设 现在 有 
一 些 数据 点 ， 我 们 用 一 条 直线 对 这 些 点 进行 拟 合 (该 线 称 为 最 佳 拟 合 直 
线 ) ， 这 个 拟 合 过 程 就 称 作 回 归 。 利 用 Logistic 回 归 进 行 分 类 的 主要 思 
想 是 : 根据 现 有 数据 对 分 类 边界 线 建立 回归 公式 ， 以 此 进行 分 类 。 这 里 
的 “回归 ”一 词 源 于 最 佳 拟 合 ， 表 示 要 找到 最 佳 拟 合 参数 集 ， 其 背后 的 数 
学 分 析 将 在 下 一 部 分 介绍 。 训 练 分 类 需 时 的 做 法 就 是 寻找 最 佳 拟 合 参 
数 ， 使 用 的 是 最 优化 算法 。 接 下 来 介绍 这 个 二 值 型 输出 分 类 器 的 数学 原 
排 ? 














Logistic 回 归 的 一 般 过 程 


1. 收集 数据 : 采用 任意 方法 收集 数据 。 

2. 准备 数据 : 由 于 需要 进行 距离 计算 ， 因 此 要 求 数据 类 型 为 数值 型 。 
另外 ， 结 构 化 数据 格式 则 最 佳 。 

3. 分 析 数 据 : 采用 任意 方法 对 数据 进行 分 析 。 

4. 训练 算法 : 大 部 分 时 间 将 用 于 训练 ， 训 练 的 目的 是 为 了 找到 最 佳 的 
分 类 回归 系数 。 

5. 测试 算法 : 一 旦 训练 步骤 完成 ， 分 类 将 会 很 快 。 











6. 使 用 算法 : 首先 ， 我 们 需要 一 些 输入 数据 ， 并 将 其 转换 成 对 应 的 结 
构 化 数值 ， 接 着， 基于 训练 好 的 回归 系数 惑 可 以 对 这 些 数 值 进行 简 
单 的 回归 计算 ， 判 定 它们 属于 哪个 类 别 ; 在 这 之 后 ， 我 们 就 可 以 在 
输出 的 类 别 上 做 一 些 其 他 分 析 工 作 。 


本 章 首 先 阐述 Logistic 回 归 的 定义 ， 然 后 介绍 一 些 最 优化 算法 ， 其 中 包 
括 基 本 的 梯度 上 升 法 和 一 个 改进 的 随机 梯度 上 升 法 ， 这 些 最 优化 算法 将 
用 于 分 类 器 的 训练 。 本 章 最 后 会 给 出 一 个 Logistic 回 归 的 实例 ， 预 测 一 
匹 病 马 是 售 能 被 治 意 。 


基于 Logistic 回 上 归 和 Sigmoid 函 数 的 分 


业 忆 


Logistic 回 归 


优点 : 计算 代价 不 局 ， 易于 理解 和 实现 。 
缺点 : 容易 欠 拟 合 ， 分 类 精度 可 能 不 高。 
适用 数据 类 型 : 数值 型 和 标 和 尔 型 数据 。 


我 们 想 要 的 函数 应 该 是 ， 能 接受 所 有 的 输入 然后 预测 出 类 别 。 例 如 ， 在 

两 个 类 的 情况 下 ， 上 述 函数 输出 0 或 1。 或 许 读者 之 前 接触 过 具有 这 种 性 

质 的 函数 ， 访 函数 称 为 海 维 塞 德 阶 跃 函 数 〈Heaviside step 人 

或 者 直接 称 为 单位 阶 跃 函数 。 然 而 ， 海 维 塞 德 阶 跃 函 数 的 问题 在 于 : 
函数 在 跳跃 点 上 从 0 瞬间 跳跃 到 1， 这 个 瞬间 跳跃 过 程 有 时 很 难处 理 。 泣 

好 ， 另 一 个 函数 也 有 类 似 的 性 质 :， 且 数学 上 更 易 处 理 ， 这 了 吏 是 Sigmoid 
函数 :。Sigmoid 函 数 具 体 的 计算 公式 如 下 : 


] 


oO(z)= 一 
1]+e 





1. 这 里 指 的 是 可 以 输出 0 或 者 1 的 这 种 性 质 。 一 一 译 者 注 











2. Sigmoid 函 数 是 一 种 阶 跃 函数 〈step function) 。 在 数学 中 ， 如 果实 数 域 上 的 某 个 函数 可 以 用 半 开 区 间 上 的 指示 函数 的 有 限 次 线性 组 合 来 表示 ， 那 么 这 个 函数 就 是 阶 跃 函数 。 而 数 
学 中 指示 函数 〈indicator function》 是 定义 在 某 集合 X 上 的 函数 ， 表 示 其 中 有 哪些 元 素 属于 某 一 子 集 A。 一 一 译 者 注 























图 5-1 给 出 了 Sigmoid 函 数 在 不 同 坐 标尺 度 下 的 两 条 曲线 图 。 当 x 为 0 时 ， 

Sigmoid 函 数值 为 0.5。 随 着 x 的 增 大 ， 对 应 的 Sigmoid 值 将 逼近 于 1; 而 随 
着 x 的 减 小 ，Sigmoid 值 将 逼近 于 0。 如 果 横 坐标 刻度 足够 大 《图 5-1 下 

图 ) ，Sigmoid 函 数 将 看 起 来 很 像 一 个 阶 跃 函数 。 
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图 5-1 两 种 坐标 尺度 下 的 Sigmoid 函 数 图 。 上 图 的 横 坐 标 为 -5 到 5， 这 
时 的 曲线 变化 较为 平滑 ， 下 图 横 坐 标的 尺度 足够 大 ， 可 以 看 到 ， 在 x = 
0 点 处 Sigmoid 函 数 看 起 来 很 像 阶 跃 函 数 


因此 ， 为 了 实现 Logistic 回 归 分 类 器 ， 我 们 可 以 在 每 个 特征 上 乘 以 一 个 
回归 系数 ， 然 后 把 所 有 的 结果 值 相 加 ， 将 这 个 总 和 代入 Sigmoid 函 数 
中 ， 进 而 得 到 一 个 范围 在 0~1 之 间 的 数值 。 最 后 ， 结 果 大 于 0.5 的 数据 被 
所 以 ，Logistic 回 归 也 可 以 被 看 成 是 
一 种 概率 估计 。 


确定 了 分 类 器 的 函数 形式 之 后 ， 现 在 的 问题 变 成 了 : 最 佳 回 归 系 数 : 是 多 
少 ? 如 何 确定 它们 的 大 小 ? 这 些 问 题 将 在 下 一 节 解 答 。 








3. 将 这 里 的 weight 翻译 为 “回归 系数 "， 是 为 了 与 后 面 的 局 部 加 权 线 性 回归 中 的 “权重 "一 词 区 分 开 来 ， 在 不 会 引起 混淆 的 时 候 也 会 简称 为 “系数 一 一 译 者 注 




















5.2 基于 最 优化 方法 的 最 佳 回 归 系 数 确 害 
Sigmoid 函 数 的 输入 记 为 z， 由 下 面 公式 得 出 : 
Z = WoXo +t Wn t+ Wn + TW 


如 果 采 用 辐 量 的 写法 ， 上 述 公 式 可 以 写成 z = wix。 它 表示 将 这 两 个 数值 
问 量 的 对 应 元 素 相 乘 然后 全 部 加 起 来 即 得 到 z 值 。 其 中 的 回 量 x 是 分 类 器 
的 输入 数据 ， 回 量 w 也 就 是 我 们 要 找到 的 最 佳 参数 〈 系 数 ) ， 从 而 使 得 
分 类 尽 可 能 地 精确 。 为 了 寻找 该 最 佳 参数 ， 需 要 用 到 最 优化 理论 的 一 些 
知识 。 


下 面 首先 介绍 梯度 上 升 的 最 优化 方法 ， 我 们 将 学 习 到 如 何 使 用 该 方法 求 
得 数据 集 的 最 佳 参 数 。 接 下 来 ， 展 示 如 何 绘制 梯度 上 升 法 产生 的 决策 边 
界 图 ， 该 图 能 将 梯度 上 升 法 的 分 类 效果 可 视 化 地 呈现 出 来 。 最 后 我 们 将 
学 习 随 机 标 度 上 升 算法 ， 以 及 如 何 对 其 进行 修改 以 获得 更 好 的 结果 。 


5.2.1 梯度 上 升 法 
我 们 介绍 的 第 一 个 最 优化 算法 叫做 梯度 上 升 法 。 梯 度 上 升 法 基于 的 思想 


是 : 要 找到 菜 函 数 的 最 大 值 ， 最 好 的 方法 是 沿 着 该 函数 的 梯度 方向 探 
寻 。 如 果 梯 度 记 为 VY， 则 函数 f(x,y) 的 梯度 由 下 式 表示 : 


























( of (x,y) | 
! OX 

| 9f (x, y) 
\ oo% 


Vf (x.») = 





这 是 机 器 学 习 中 最 易 造成 混淆 的 一 个 地 方 ， 但 在 数学 上 并 不 难 ， 需 要 做 
Of (x.») 
的 只 是 牢记 这 些 符 号 的 意义 。 这 个 梯度 意味 着 要 沿 x 的 方向 移动 ”cx 
Of (x,») 


， 沿 y 的 方向 移动 ”名 。 。 其 中 ， 函数 fxy) 必 须要 在 待 计算 的 点 上 有 





定义 并 且 可 微 。 一 个 具体 的 函数 例子 见 图 5-2。 


梯度 上 升 





图 5-2 ”梯度 上 升 算法 到 达 每 个 点 后 都 会 重新 估计 移动 的 方向 。 从 P0 开 
始 ， 计 算 完 该 点 的 梯度 ， 函 数 束 根据 梯度 移动 到 下 一 点 Pl1。 在 P1 点 ， 
梯度 再 次 被 重新 计算 ， 并 沿 新 的 标 度 方 同 移动 到 P2。 如 此 循环 达 代 ， 
直到 满足 停止 条 件 。 友 代 的 过 程 中 ， 梯 度 算 子 总 是 保证 我 们 能 选取 到 
最 佳 的 移动 方 同 


图 5-2 中 的 梯度 上 升 算法 沿 标 度 方 同 移动 了 一 步 。 可 以 看 到 ， 梯 上 度 算 子 
总 是 指向 函数 值 增 长 最 快 的 方向 。 这 里 所 说 的 是 移动 方向 ， 而 未 提 到 移 
动量 的 大 小 。 该 量 值 称 为 步 长 ， 记 做 & 。 用 向 量 来 表示 的 话 ， 梯 度 上 升 
算法 的 迭代 公 却 如 下 : 











w= w+oQV, fw) 


该 公式 将 一 直 被 迭代 执行 ， 直 至 达到 茶 个 停止 条 件 为 上 ， 比 如 迭代 次 数 


达到 东 个 指定 值 或 算法 达到 茶 个 可 以 允许 的 误 莽 范围 。 
梯度 下 降 算 法 
你 最 经 常 听 到 的 应 该 是 梯度 下 降 算 法 ， 它 与 这 里 的 梯度 上 升 算 法 是 


一 样 的 ， 只 是 公式 中 的 加 法 需要 变 成 减法 。 因 此 ， 对 应 的 公式 可 以 
写成 





让 二 1 十 QV f (WwW) 


0 而 杨 度 下 降 算 法 用 来 求 函数 的 
最 小 值 。 


基于 上 面 的 内 容 ， 我 们 来 看 一 个 Logistic 回 归 分 类 器 的 应 用 例子 ， 从 图 5- 
3 可 以 看 到 我 们 采用 的 数据 集 。 


@ee Class1l 
@B Classo 
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图 5-3 一 个 简单 数据 集 ， 下 面 将 采用 梯度 上 升 法 找到 Logistic 回 归 分 
类 禹 在 此 数据 集 上 的 最 佳 回 归 系 数 


5.2.2 ”训练 算法 : 使 用 梯度 上 升 找到 最 佳 参数 

图 5-3 中 有 100 个 样本 点 ， 每 个 点 包含 两 个 数值 型 特征 : X1 和 X2。 在 此 
数据 集 上 ， 我 们 将 通过 使 用 梯度 上 升 法 找到 最 佳 回归 系数 ， 也 就 是 拟 合 
出 Logistic 回 归 模 型 的 最 佳 参数 。 


梯度 上 升 法 的 伪 代 码 如 下 : 





每 个 回归 系数 初始 化 为 1 
重复 R 次 : 
计算 整个 数据 集 的 梯度 
































使 用 "alpha x gradient ` 更 新 回归 系数 的 向 量 
返回 回归 系数 




















下 面 的 代码 是 梯度 上 升 算法 的 具体 实现 。 为 了 解 实际 效果 ， 打 开 文 本 编 
辑 器 并 创建 一 个 名 为 1ogRegres.py 的 文件 ， 输 入 下 列 代码 ; 


程序 清单 5-1 logistic 回 归 梯 度 上 升 优化 算法 


def loadDataSet() : 

dataMat = []; labelMat = [] 

fr = open('testSet.txt') 

for line in fr.readlines(): 
lineArr = line.strip().split() 
dataMat .append([1.0, float(lineArr[0]), float(lineArr[1])]) 
labelMat.append(int(lineArr[2])) 

return dataMat, labelMat 


def sigmoid(inX): 
return 1.0/(1+exp(-inX)) 


def gradAscent(dataMatIn, classLabels): 
# @ 以 下 两 行 ) 转换 为 NumPy 和 矩阵 数据 类 型 
dataMatrix = mat(dataMatIn) 
labelMat = mat(classLabels).transpose() 
m,n = shape(dataMatrix) 
alpha = 0.001 
maxCycles = 500 
weights = ones((n,1)) 
for k in range(maxCycles): 
# 人 @ (以 下 三 行 ) 矩阵 相 乘 
h = sigmoid(dataMatrix*weights) 
error = (labelMat - h) 
weights = weights + alpha * dataMatrix.transpose()* error 
return weights 














程序 清单 5-1 的 代码 在 开头 提供 了 一 个 便利 函数 loadpataset()， 它 的 主 
要 功能 是 打开 文本 文件 testset ,txt 并 逐 行 读 取 。 每 行 前 两 个 值 分 别 是 
X1 和 X2， 第 三 个 值 是 数据 对 应 的 类 别 标签 。 此 外 ， 为 了 方便 计算 ， 访 
函数 还 将 X0 的 值 设 为 1.0。 接 下 来 的 函数 是 5.2 节 提 到 的 函数 sigmoid()。 


梯度 上 升 算 法 的 实际 工作 是 在 函数 gradAscent() 里 完成 的 ， 该 函数 有 两 
个 参数 。 第 一 个 参数 是 dataMatIn， 它 是 一 个 2 维 NumPy 数 组 ， 每 列 分 别 
代表 每 个 不 同 的 特征 ， 每 行 则 代表 每 个 训练 样本 。 我 们 现在 采用 的 是 

100 个 样本 的 简单 数据 集 ， 它 包含 了 两 个 特征 X1 和 X2， 再 加 上 第 0 维特 
征 X0， 所 以 dataMath 里 存放 的 将 是 100x3 的 矩阵。 在 @ 处 ， 我 们 获得 输 
入 数据 并 将 它们 转换 成 NumPy 和 矩阵 。 这 是 本 书 首次 使 用 NumPy 和 矩阵 ， 如 
果 你 对 矩阵 数学 不 太 熟 悉 ， 那 么 一 些 运算 可 能 就 会 不 易 理解 。 比 如 ， 








NumPy 对 2 维 数组 和 和 窍 阵 都 提供 一 些 操 作文 持 ， 如 果 混 消 了 数据 类 型 和 
对 应 的 操作 ， 执 行 结 果 将 与 预期 截然 不 同 。 对 此 ， 本 书 附 录 A 给 出 了 对 
NumPy 算 阵 的 介绍 。 第 二 个 参数 是 类 别 标签 ， 它 是 一 个 1x100 的 行 问 
量 。 为 了 便于 和 窍 阵 运算 ， 需 要 将 该 行 网 量 转换 为 列 癌 量 ， 做 法 是 将 原 加 
量 转 置 ， 再 将 它 赋值 给 labelMat 。 接 下 来 的 代码 是 得 到 矩阵 大 小 ， 再 设 
置 一 些 梯度 上 升 算法 所 需 的 参数 。 


变量 alpha 是 回 目 标 移 动 的 步 长 ，maxcycles 是 迭代 次 数 。 在 for 循 环 返 代 
完成 后 ， 将 返回 训练 好 的 回归 系数 。 需 要 强调 的 是 ， 在 仿 处 的 运算 是 窃 
阵 运 算 。 变 量 h 不 是 一 个 数 而 是 一 个 列 癌 量 ， 列 向 量 的 元 素 个 数 等 于 样 
本 个 数 ， 这 里 是 100。 对 应 地 ， 运 算 dataMatrix * weights 代 表 的 不 是 一 
次 乘积 计算 ， 事 实 上 该 运算 包含 了 300 次 的 乘积 。 


最 后 还 需 说 明 一 点 ， 你 可 能 对 仿 中 公式 的 前 两 行 觉得 陌生 。 此 处 本 书 略 
去 了 一 个 简单 的 数学 推导 ， 我 把 它 留 给 有 兴趣 的 读者 。 定 性 地 说 ， 这 里 
是 接 下 来 就 是 按照 该 差 值 的 方向 调 
整 回归 系 类 o 


接 下 来 看 看 实际 效果 ， 打 开 文 本 编辑 器 ， 琴 加 程序 清单 5-1 的 代码 。 
在 Python 提 示 符 下 ， 襄 入 下 面 的 代码 : 


>>> import logRegres 
>>> dataArr, labelMat=logRegres.1loadDataSet() 
>>> logRegres.gradAscent(dataArr,1labelMat) 
matrix([[ 4.12414349], 

[ 90.48007329] ， 

[-0.6168482 ]]) 























5.2.3 “分析 数据 : 画 出 决策 边界 


上 面 已 经 解 出 了 一 组 回归 系数 ， 它 确定 了 不 同类 别 数据 之 间 的 分 隔 线 。 
那么 怎样 能 画 出 该 分 隔 线 ， 从 而 使 得 优化 的 过 程 便 于 理解 呢 ? 下 面 将 解 
决 这 个 问题 ， 打 开 1logRegres .py 并 添加 如 下 代码 。 


程序 清单 5-2 ” 画 出 数据 集 和 logistic 回 归 最 佳 拟 合 直线 的 函数 


def plotBestFit (wei): 
import matplotlib.pyplot as plt 
weights = wei.getA( 
dataMat, labelMat=loadDataSet() 
dataArr = array(dataMat ) 


n = Shape(dataArr)[9] 
Xcord1 = []; ycordi = 
xcord2 = []; ycord2 = 
for i in range(n): 
if int(labelMat[i])== 1: 
xcordi.append(dataArr[i,1]); ycordi.append(dataArr[i,2]) 
else: 
xcord2.append(dataArr[i,1]); ycord2.append(dataArr[i,2]) 
fig = plt.figure() 
ax = fig.add_ subplot(111) 
ax.scatter(xcord1i, ycordi, s=30, c='red', marker='s') 
ax.scatter(xcord2, ycord2, s=30, c='green') 
x = arange(-3.0, 3.0, 0.1) 
# @ ”最 佳 拟 合 直线 
y = (-weights[0]-weights[1]*x)/weights[2] 
ax.plot(x, y) 
plt.xlabel('X1'); plt.ylabel('X2'); 
plt.show() 


[] 
[] 




















程序 清单 5-2 中 的 代码 是 直接 用 Matplotlib 画 出 来 的 。 唯 一 要 指出 的 是 ， 

各 处 设置 了 sigmoid 函 数 为 0。 回 忆 5.2 节 ，0 是 两 个 类 别 (类 别 1 和 类 别 
0) 的 分 界 处 。 因 此 ， 我 们 设 定 0 = wx + wx + wxX， 然 后 解 出 X2 和 X1 
的 关系 式 〈 即 分 隔 线 的 方程 ， 注 意 XO0=1) 。 


运行 程序 清单 5-2 的 代码 ， 在 Python 提示 符 下 输入 : 


>>> reload(logRegres) 
<module "logRegres' from 'logRegres.py'> 
>>> logRegres.plotBestFit(weights.getA()) 


输出 的 结果 如 图 5-4 所 示 。 
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图 5-4 梯度 上 升 算法 在 500 次 迭代 后 得 到 的 Logistic 回 归 最 佳 拟 合 直 线 


这 个 分 类 结果 相当 不 错 ， 从 图 上 看 只 错 分 了 两 到 四 个 点 。 但 是 ， 尺 管 例 
子 简单 且 数 据 集 很 小 ， 这 个 方法 却 需要 大 量 的 计算 (300 次 乘法 ) 。 因 
此 下 一 节 将 对 该 算法 稍 作 改进 ， 从 而 使 它 可 以 用 在 真实 数据 集 上 。 


5.2.4 训练 算法 : 随机 梯度 上 升 


梯度 上 升 算法 在 每 次 更 新 回归 系数 时 都 需要 过 历 整 个 数据 集 ， 该 方法 在 
处 理 100 个 左右 的 数据 集 时 尚 可 ， 但 如 果 有 数 十 亿 样 本 和 成 二 上 万 的 特 
征 ， 那 么 该 方法 的 计算 复 条 度 束 太 咒 了 。 一 种 改进 方法 是 一 次 仅 用 一 个 
样本 点 来 更 新 回归 系数 ， 该 方法 称 为 随机 梯度 上 升 算法 。 由 于 可 以 在 新 
样本 到 来 时 对 分 类 器 进行 增 量 式 更 新 ， 因 而 随机 梯度 上 升 算法 是 一 个 在 











线 学 习 算 法 。 与 “在 线 学 习 ” 相 对 应 ， 一 次 处 理 所 有 数据 被 称 作 是 “ 批 处 
本 


随机 梯度 上 升 算 法 可 以 写成 如 下 的 伪 代 码 : 


所 有 回归 系数 初始 化 为 1 
对 数据 集中 每 个 样本 
计算 该 样本 的 梯度 

使 用 alpha x gradient 更 新 回归 系数 值 
可 回归 系数 值 



































沿 
回 








伪 代 码 最 后 一 行 应 项 格 ， 原 文 错误 ， 己 修改 
以 下 征 随 机 梯度 上 升 算 法 的 实现 代码 。 
程序 清单 5-3 ”随机 梯度 上 升 算法 


def stocGradAscento(dataMatrix, classLabels): 
m,n = shape(dataMatrix) 
alpha = 0.01 
weights = ones(n) 
for i in range(m): 
h = sigmoid(sum(dataMatrix[i]*weights)) 
error = classLabels[i] - h 
weights = weights + alpha * error * dataMatrix[i] 
return weights 


可 以 看 到 ， 随 机 梯度 上 升 算法 与 梯度 上 升 算法 在 代码 上 很 相似 ， 但 也 有 
一 些 区 别 : 第 一 ， 后 者 的 变量 h 和 误差 error 都 是 向 量 ， 而 前 者 则 全 是 数 
OY 
六 组 ， 


为 了 验证 该 方法 的 结果 ， 我 们 将 程序 清单 5-3 的 代码 添加 到 logRegres .py 
中 ， 并 在 Python 提 示 符 下 输入 如 下 命令 : 


>>> from numpy import * 

>>> reload(logRegres) 

<module 'logRegres' from 'logRegres.py'> 

>>> dataArr, labelMat=logRegres.1loadDataSet() 

>>> weights=logRegres.stocGradAscentO(array(dataArr),1labelMat) 
>>> logRegres.plotBestFit(weights) 





执行 完毕 后 将 得 到 图 5-5 所 示 的 最 佳 拟 合 直线 图 ， 该 图 与 图 5-4 有 一 些 相 
似 之 处 。 可 以 看 到 ， 拟 合 出 来 的 直线 效果 还 不 错 ， 但 并 不 像 图 5-4 那 样 





完美 。 这 里 的 分 类 器 错 分 了 三 分 之 一 的 样本 。 


直接 比较 程序 清单 5-3 和 程序 清单 5-1 的 代码 结果 是 不 公平 的 ， 后 者 的 结 
果 是 在 整个 数据 集 上 迭代 了 500 次 才 得 到 的 。 一 个 判断 优化 算法 优 劣 的 
可 靠 方 法 是 看 它 是 否 收 敛 ， 也 就 是 说 参数 是 否 达 到 了 稳定 值 ， 是 否 还 会 
不 断 地 变化 ? 对 此 ， 我 们 在 程序 清单 5-3 中 随机 梯度 上 升 算法 上 做 了 些 
修改 ， 使 其 在 整个 数据 集 上 运行 200 次 。 最 终 绘制 的 三 个 回归 系数 的 变 
化 情况 如 图 5-6 所 示 。 
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图 5-5 ”随机 梯度 上 升 算法 在 上 述 数 据 集 上 的 执行 结果 ， 最 佳 拟 合 直 线 
并 非 最 佳 分 类 线 
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图 5-6 运行 随机 梯度 上 升 算法 ， 在 数据 集 的 一 次 遍历 中 回归 系数 与 达 
代 次 数 的 关系 图 。 回 归 系 数 经 过 大 量 迭 代 才 能 达到 稳定 值 ， 并 且 仍 然 
有 局 部 的 波动 现象 


图 5-6 展 示 了 随机 梯度 上 升 算法 在 200 次 迭代 过 程 中 回归 系数 的 变化 情 
况 。 其 中 的 系数 2， 也 就 是 图 5-5 中 的 X2 只 经 过 了 50 次 迭代 束 达 到 了 稳定 
值 ， 但 系数 1 和 0 则 需要 更 多 次 的 兴 代 。 男 外 值得 注意 的 是 ， 在 大 的 波动 
停止 后 ， 还 有 一 些小 的 周期 性 波动 。 不 难 理解 ， 产 生 这 种 现象 的 原因 是 
存在 一 些 不 能 正确 分 类 的 样本 点 〔 数 据 集 并 非 线 性 可 分 ) ， 在 每 次 迭代 
时 会 引发 系数 的 剧烈 改变 。 我 们 期 望 算 法 能 避免 来 回 波动 ， 从 而 收敛 到 
茶 个 值 。 男 外 ， 收 全 速度 也 需要 加 快 。 


对 于 图 5-6 存 在 的 问题 ， 可 以 通过 修改 程序 清单 5-3 的 随机 梯度 上 升 算法 
来 解决 ， 具 体 代 码 如 下 : 





程序 清单 5-4 ”改进 的 随机 梯度 上 升 算法 


def stocGradAscenti(dataMatrix, classLabels, numIter=150): 
m,n = shape(dataMatrix) 
weights = ones(n) 
for j in range(numIter): dataIndex = range(m) 
for i in range(m): 
#@@ ”alpha 每 次 迭代 时 需要 调整 
alpha = 4/(1.0+j+i)+0.01 
# 和 随机 选取 更 新 
randIndex = int(random,.uniform(9,1Len(dataIndex) )) 
h = sigmoid(sum(dataMatrix[randIindex]*weights)) 
error = classLabels[randIndex] - h 
weights = weights + alpha * error * dataMatrix[randIndex] 
del(dataIndex[randIndex]) 
return weights 


























程序 清单 5-4 与 5-3 类 似 ， 但 增加 了 两 处 代码 来 进行 改进 。 


第 一 处 改进 在 @ 处 。 一 方面 ，alpha 在 每 次 迭代 的 时 候 都 会 调整 ， 这 会 绥 
解 图 5-6 上 的 数据 波动 或 者 局 频 疲 动 。 男 外 ， 昌 然 alpha 会 随 着 碗 代 次 数 
不 断 减 小 ， 但 永远 不 会 减 小 到 0， 这 是 因为 @ 中 还 存在 一 个 常数 项 。 必 
须 这 样 做 的 原因 是 为 了 保证 在 多 次 欠 代 之 后 新 数据 仍然 具有 一 定 的 影 
啊 。 如 果 要 处 理 的 问题 是 动态 变化 的 ， 那 么 可 以 适当 加 大 上 述 常 数 项 ， 
来 确保 新 的 值 获得 更 大 的 回归 系数 。 另 一 点 值得 注意 的 是 ， 在 降低 alpha 
的 函数 中 ，alpha 每 次 减少 1/(j+i) ， 其 中 j 是 达 代 次 数 ，i 是 样本 点 的 下 
标 ，。 这 样 当 j<<max(i) 时 ，alpha 就 不 是 严格 下 降 的 。 避 免 参 数 的 严格 下 
降 也 第 见于 模拟 退火 算法 等 其 他 优化 算法 中 。 


1. 要 注意 区 分 这 里 的 下 标 与 样本 编号 ， 编 号 表示 了 样本 在 矩阵 中 的 位 置 ( 代 码 中 为 randIndex〉， 而 这 里 的 下 标 i 表 示 本 次 迭代 中 第 i 个 选 出 来 的 样本 。 一 一 译 者 注 


程序 清单 5-4 第 二 个 改进 的 地 方 在 人 处， 这 里 通过 随机 选取 样本 来 更 新 
回归 系数 。 这 种 方法 将 减少 周期 性 的 波动 (如 图 5-6 中 的 波动 )。 具 体 
实现 方法 与 第 3 草 类 似 ， 这 种 方法 每 次 随机 从 列表 中 选 出 一 个 值 ， 然 后 
从 列表 中 删 掉 该 值 〈 再 进行 下 一 次 迭代 )。 


此 外 ， 改 进 算法 还 增加 了 一 个 迭代 次 数 作为 第 3 个 参数 。 如 果 该 参数 没 
有 给 定 的 话 ， 算 法 将 默认 迭代 150 次 。 如 果 给 是， 那么 算法 将 按照 新 的 
参数 值 进行 迭代 。 


与 stocGradAscent1() 类 似 ， 风 5-7 显 示 了 每 次 迭代 时 各 个 回归 系数 的 变 
化 情况 。 
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图 5-7 使 用 样本 随机 选择 和 alpha 动 态 减 少 机 制 的 随机 梯度 上 升 算 法 
stocGradAscent1() 所 生成 的 系数 收敛 示意 图 。 该 方法 比 采 用 固定 alpha 
的 方法 收 钱 速度 更 快 


比较 图 5-7 和 图 5-6 可 以 看 到 两 点 不 同 。 第 一 点 是 ， 图 5-7 中 的 系数 没有 像 
图 5-6 里 那样 出 现 周期 性 的 波动 ， 这 归功 于 stoc6radAscent1() 里 的 样本 
随机 选择 机 制 ， 第 三 点 是 ， 图 5-7 的 水 平 轴 比 图 5-6 短 了 很 多 ， 这 是 由 于 
stocGradAscent1() 可 以 收 钱 得 更 快 。 这 次 我 们 仪 仅 对 数据 集 做 了 20 次 表 
历 ， 而 之 前 的 方法 是 500 次 。 


下 面 看 看 在 同一 个 数据 集 上 的 分 类 效果 。 将 程序 清单 5-4 的 代码 添加 
到 logRegres.py 文 件 中 ， 并 在 Python 提 示 符 下 输入 : 


>>> reload(logRegres) 
<module 'logRegres' from 'logRegres.py'> 








>>> dataArr,1labelMat=logRegres.1loadDataSet() 
>>> weights=logRegres.stocGradAscenti(array(dataArr),1labelMat) 
>>> logRegres.plotBestFit(weights) 





程序 运行 结束 之 后 应 该 可 以 看 到 与 图 5-8 类 似 的 结果 图 。 该 分 隔 线 达到 
了 与 GradientAscent() 差 不 多 的 效果 ， 但 是 所 使 用 的 计算 量 更 少 。 
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图 5-8 ”使 用 改进 的 随机 梯度 上 升 算法 得 到 的 系数 


默认 友 代 次 数 是 150， 可 以 通过 stocGradAscent() 的 第 3 个 参数 来 对 此 进 
行 修改 ， 例 如 : 


>>> weights=logRegres.stocGradAscenti(array(dataArr),1labelMat, 500) 





目前 ， 我 们 已 经 学 习 了 几 个 优化 算法 ， 但 还 有 很 多 优化 算法 值得 探讨 ， 
所 外 这 方面 已 有 大 量 的 文献 可 供 参 考 。 男 外 再 说 明 一 下 ， 针 对 给 定 的 数 
0 








迄今 为 止 我 们 分 析 了 回归 系数 的 变化 情况 ， 但 还 没有 达到 本 章 的 最 终 目 
标 ， 即 完成 具体 的 分 类 任务 。 下 一 节 将 使 用 随机 梯度 上 升 算法 来 解决 病 
马 的 生死 预测 问题 。 





5.3 示例 :从 疝气 病症 预测 病 马 的 死亡 率 


本 节 将 使 用 Logistic 回 归来 预测 患 有 疝 病 的 马 的 存活 问题 。 这 里 的 数据 ; 
包含 368 个 样本 和 28 个 特征 。 我 并 非 育 马 专家 ， 从 一 些 文献 中 了 解 到 ， 
疝 病 是 描述 马 肯 肠 痛 的 术语 。 然 而 ， 这 种 病 不 一 定 源 目 马 的 骨 肠 问题 ， 
其 他 问题 也 可 能 引发 瑟 疝 病 。 该 数据 集中 包含 了 医院 检测 瑟 疝 病 的 一 些 
指标 ， 有 的 指标 比较 主观 ， 有 的 指标 难以 测量 ， 例 如 马 的 疼痛 级 别 。 


1. ”数据 集 来 自 2010 年 1 月 11 日 的 UCI 机 器 学 习 数 据 库 (http://archive.ics.uc 
Cecile 收 集 。 


示例 : 使 用 Logistic 回 归 估 计 马 疝 病 的 死亡 率 


iedu/ml/datasets/Horse+Colic)。 该 数据 最 早 由 加 拿 大 安大略 省 圭 尔 夫 大 学 计算 机 系 的 Mary McLeish 和 Matt 








. 收集 数据 : 给 定数 据 文 件 。 

. 准备 数据 : 用 Python 解析 文本 文件 并 填充 缺失 值 。 

. 分 析 数 据 : 可 视 化 并 观察 数据 。 

. 训练 算法 : 使 用 优化 算法 ， 找 到 最 佳 的 系数 。 

. 测试 算法 : 为 了 量化 回归 的 效果 ， 需 要 观察 错误 紊 。 根 据 错误 率 决 
定 是 否 回 退 到 训练 阶段 ， 通 过 改变 欠 代 的 次 数 和 步 长 等 参数 来 得 到 
更 好 的 回归 系数 。 

6. 使 用 算法 : 实现 一 个 简单 的 命令 行程 序 来 收集 马 的 钙 状 并 输出 预测 

结果 并 非 难事 ， 这 可 以 做 为 留 给 读者 的 一 道 习 题 。 


男 外 需要 说 明 的 是 ， 除 了 部 分 指标 主观 和 难以 测量 之 外 ， 该 数据 集 还 存 
在 一 个 问题 ， 数 据 集中 有 30% 的 数据 值 是 缺失 的 。 下 面 将 首先 介绍 如 何 
处 理 数 据 集中 的 数据 缺失 问题 ， 然 后 再 利用 Logistic 回 归 和 随机 梯度 上 
升 算 法 来 预测 病 马 的 生死 。 


5.3.1 准备 数据 : 处 理 数据 中 的 缺失 值 


数据 中 的 缺失 值 是 个 非常 环 手 的 问题 ， 有 很 多 文献 都 致力 于 解决 这 个 问 
题 。 那 么 ， 数 据 缺 失 完 竟 带 来 了 什么 问题 ? 假设 有 100 个 样本 和 20 个 特 
征 ， 这 些 数据 都 是 机 器 收集 回来 的 。 若 机 器 上 的 某 个 传感器 损坏 导致 一 
个 特征 无 效 时 该 怎么 办 ?此 时 是 否 要 扔 掉 整 个 数据 ? 这 种 情况 下 ， 男 外 
19 个 特征 怎么 办 ? 它们 是 否 还 可 用 ? 答案 是 肯定 的 。 因 为 有 时 候 数据 相 
当 昂 贯 ， 扔 反 和 重新 获取 都 是 不 可 取 的 ， 所 以 必须 采用 一 些 方法 来 解决 
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这 个 问题 。 


下 面 给 出 了 一 些 可 选 的 做 法 : 


。 使 用 可 用 特征 的 均值 来 填补 缺失 值 ; 
。 使 用 特殊 值 来 填补 缺失 值 ， 如 -1 

。 忽略 有 缺失 值 的 样本 ; 

。 使 用 相似 样本 的 均值 添补 缺失 值 ; 

。 使 用 为 外 的 机 器 学 习 算 法 预测 缺失 值 。 


现在 ， 我 们 对 下 一 节 要 用 的 数据 集 进行 预 处 理 ， 使 其 可 以 顺利 地 使 用 分 
类 算法 。 在 预 处 理 阶 段 需 要 做 两 件 事 : 第 一 ， 所 有 的 缺失 值 必须 用 一 个 
实数 值 来 蔡 换 ， 因 为 我 们 使 用 的 NumPy 数 据 类 型 不 允许 包含 缺失 值 。 这 
里 选择 实数 0 来 葵 换 所 有 缺失 值 ， 恰 好 能 适用 于 Logistic 回 归 。 原 因 在 
我 们 需要 的 是 一 个 在 更 新 时 不 会 影响 系数 的 值 。 回 归 系 数 的 更 新 公 
式 \ 0 下: 


weights = weights + alpha * error * dataMatrix[randIndex 











如 果 dataMatrix 的 某 特 征 对 应 值 为 9%， 那么 该 特征 的 系数 将 不 做 更 新 ， 
Rh : 


weights = weights 


另外 ， 由 于 sigmoid(9)=9.5， 即 它 对 结果 的 预测 不 具有 任何 倾向 性 ， 因 
此 上 述 做 法 也 不 会 对 误差 项 造成 任何 影响 。 基 于 上 述 原因 ， 将 缺失 值 用 
0 代 蔡 既 可 以 保留 现 有 数据 ， 也 不 需要 对 优化 算法 进行 修改 。 此 外 ， 该 
数据 集中 的 特征 取 值 一 般 不 为 0， 因 此 在 某 种 意义 上 说 它 也 满足 “特殊 
值 > 这 个 要 求 。 


预 处 理 中 做 的 第 二 件 事 是 ， 如 果 在 测试 数据 集中 发 现 了 一 条 数据 的 类 别 
标签 已 经 缺失 ， 那 么 我 们 的 简单 做 法 是 将 该 条 数据 丢弃 。 这 是 因为 类 别 
标签 与 特征 不 同 ， 很 难 确 定 采 用 杂 个 合适 的 值 来 蔡 换 。 采 用 Logistic 回 
归 进 行 分 类 时 这 种 做 法 是 合理 的 ， 而 如 末 及 用 类 似 kKNN 的 方法 焉 可 能 个 

















原始 的 数据 集 经 过 预 处 理 之 后 保存 成 两 个 文件 : horsecolLicTest .txt 和 
horseColicTraining.txt。 如 果 想 对 原始 数据 和 预 处 理 后 的 数据 做 个 比 


较 ， 可 以 在 http:/archive.ics.uci.edu/ml/datasets/Horse+Colic 浏 览 这 些 数 
气 。 


现在 我 们 有 一 个 “干净 ?可 用 的 数据 集 和 一 个 不 错 的 优化 算法 ， 下 面 将 把 
部 分 融合 在 一 起 训练 出 一 个 分 类 器 ， 然 后 利用 该 分 类 器 来 预测 病 己 
I 生死 问题 。 


5.3.2 ”测试 算法 : 用 Logistic 加 | 归 进 行 分 类 


本 章 前 面 几 节 介绍 了 优化 算法 ， 但 目前 为 止 还 没有 在 分 类 上 做 任何 实际 
尝试 。 使 用 Logistic 回 归 方 法 进行 分 类 并 不 需要 做 很 多 工作 ， 所 需 做 的 

只是 把 测试 集 上 每 个 特征 向 量 乘 以 最 优化 方法 得 来 的 回归 素数， 再 将 该 
乘积 2 吉 果 求 和 ， 最 后 输入 到 Sigmoid 函 数 中 即 可 。 如 果 对 应 的 Sigmoid 值 
大 于 0.5 惑 预测 类 别 标签 为 1， 人 否则 为 0。 


下 面 看 看 实际 运行 效果 ， 打 开 文 本 编辑 器 并 将 下 列 代 码 添 加 
到 logReg res ， py 文件 中 o 


程序 清单 5-5 ”logistic 回 归 分 类 函数 


def classifyVector(inX, weights): 
prob = sigmoid(sum(inX*weights)) 
if prob > 0.5: return 1.0 
else: return 0.0 











def colicTest(): 
frTrain = open('horseColicTraining.txt"') 
frTest = open('horseColicTest.txt') 
trainingSet = []; trainingLabels = [] 
for line in frTrain,readlines() : 
currLine = line.strip().split('\t') 
lineArr =[] 
for i in range(21): 
lineArr.append(float(currLine[i])) 
trainingSet.append(lineArr) 
trainingLabels.append(float(currLine[21])) 
trainweights = stocGradAscenti(array(trainingSet), trainingLabels, 500) 
errorCount = 0; numTestVec = 0.0 
for line in frTest,readlines() : 
numTestVec += 1.0 
currLine = line.strip().split('\t') 
lineArr =[] 
for i in range(21): 
lineArr.append(float(currLine[i])) 
If int(classifyVector(array(lineArr), trainweights))!= 
int(currLine[21]): 


errorCount += 工 
errorRate = (float(errorCount)/numTestVec) 
print "the error rate of this test is: %f" % errorRate 
return errorRate 


def multiTest(): 
numTests = 10; errorSum=0.0 
for k in range(numTests ) : 
errorSum += colicTest() 
print "after %d iterations the average error rate is:%f" % (numTests, errorSul 


程序 清单 5-5 的 第 一 个 函数 是 classifyvector()， 它 以 回归 系数 和 特征 问 
量 作为 输入 来 计算 对 应 的 Sigmoid 值 。 如 果 Sigmoid 值 大 于 0.5 函 数 返 回 
1， 人 和合 则 返回 0。 


接 下 来 的 函数 是 colicTest()， 是 用 于 打开 测试 集 和 训练 集 ， 并 对 数据 
进行 格式 化 处 理 的 函数 。 访 函数 首先 导入 训练 集 ， 同 前 面 一 样 ， 数 据 的 
最 后 一 列 仍然 是 类 别 标签 。 数 据 最 初 有 三 个 类 别 标签 ， 分 别 代表 马 的 三 
种 情况 : “ 仍 存活 ” “已 经 死亡 ?和 “已 经 安乐 死 "。 这 里 为 了 方便 ， 将 “已 
经 死亡 ”和 “已 经 安乐 死 " 合 并 成 “未 能 存活 ”这 个 标签 ”。 数 据 导 入 之 后 ， 
便 可 以 使 用 函数 stocGradAscent1() 来 计算 回归 系数 癌 量 。 这 里 可 以 自由 
设 定 迭 代 的 次 数 ， 例 如 在 训练 集 上 使 用 500 次 欠 代 ， 实 验 结果 表明 这 比 
默认 友 代 150 次 的 效果 更 好 。 在 系数 计算 完成 之 后 ， 导 入 测试 集 并 计算 
分 类 错误 率 。 整 体 看 来 ，colicTest() 具 有 完全 独立 的 功能 ， 多 次 运行 
得 到 的 结果 可 能 稍 有 不 同 ， 这 是 因为 其 中 有 随机 的 成 分 在 里 面 。 如 果 
人 那么 结果 才 将 是 确 
定 的 。 








最 后 一 个 函数 是 multiTest()， 其 功能 是 调用 函数 colicTest()10 次 并 求 
结果 的 平均 值 。 下 面 看 一 下 实际 的 运行 效果 ， 在 Python 提示 符 下 输入 : 


>>> reload(logRegres) 

<module "logRegres' from "logRegres.py'> 
>>> logRegres.multiTest() 

the error rate of this test is: 0.358209 








the error rate of this test is: 0.432836 
the error rate of this test is: 0.373134 


the error rate of this test is: 0.298507 
the error rate of this test is: 0.313433 
after 10 iterations the average error rate is: 0.353731 


从 上 面 的 结果 可 以 看 到 ，10 次 迭 代 之 后 的 平均 错误 率 为 35%。 事 实 上 ， 


这 个 结果 并 不 差 ， 因 为 数据 集 有 30% 的 数据 已 经 缺失 。 当 然 ， 如 果 调 
整 colicTest() 中 的 欠 代 次 数 和 stochGradAscent1(0) 中 的 步 长 ， 平 均 错 误 
率 可 以 降 到 20% 左 右 。 第 7 章 中 我 们 还 会 再 次 使 用 到 这 个 数据 集 。 


5.4 本章 小 疆 


Logistic 回 归 的 目的 是 寻找 一 个 非 线性 函数 Sigmoid 的 最 佳 拟 合 参数 ， 求 
解 过 程 可 以 由 最 优化 算法 来 完成 。 在 最 优化 算法 中 ， 最 常用 的 就 是 梯度 
上 升 算 法 ， 而 梯度 上 升 算 法 又 可 以 简化 为 随机 梯度 上 升 算法 。 


随机 梯度 上 升 算 法 与 标 度 上 升 算法 的 效果 相当 ， 但 占用 更 少 的 计算 资 
源 。 此 外 ， 随 机 梯度 上 升 是 一 个 在 线 算 法 ， 它 可 以 在 新 数据 到 来 时 就 完 
成 参数 更 新 ， 而 不 需要 重新 读 取 整个 数据 集 来 进行 批 处 理 运算 。 


机 占 学 习 的 一 个 重要 问题 就 是 如 何 处 理 缺 失 数 据 。 这 个 问题 没有 标准 答 
Re 


下 一 章 将 介绍 与 Logistic 回 归 类 似 的 另 一 种 分 类 算法 : 文 持 问 量 机 ， 它 
被 认为 是 目前 最 好 的 现成 的 算法 之 一 。 




















第 6 革 文 持 问 量 机 
本 章 内容 


。 简单 介绍 支持 向 量 机 
。 利 用 SMO 进 行 优 化 

。 利用 核 函 数 对 数据 进行 空间 转换 
。 将 SVM 和 其 他 分 类 器 进行 对 比 


“由 于 理解 文 持 向 量 机 〈Support Vector Machines，SVM) 需要 掌握 一 些 
理论 知识 ， 而 这 对 于 读者 来 说 有 一 定 难 度 ， 于 是 建议 读者 直接 下 载 
LIBSVM 使 用 。” 我 发 现 ， 在 介绍 SVM 时 ， 不 止 一 本 书 都 采用 了 以 上 这 
种 模式 。 本 书 并 不 打算 治 用 这 种 模式 。 我 认为 ， 如 果 对 SVM 的 理论 不 其 
了 解 就 去 阅读 其 产品 级 C++ 人 代码， 那么 读 懂 的 难度 很 大 。 但 如 果 将 产品 
级 代码 和 速度 提升 部 分 剥离 出 去 ， 那 么 代码 就 会 变 得 可 控 ， 或 许 这 样 的 
代码 就 可 以 了 。 


有 些 人 认为 ，SVM 是 最 好 的 现成 的 分 类 器 ， 这 里 说 的 “现成 ? 指 的 是 分 类 
器 不 加 修改 即 可 ， 直 接 使 用 。 同 时 ， 这 就 意味 着 在 数据 上 应 用 基本 形式 
的 SVM 分 类 器 就 可 以 得 到 低 错 误 率 的 结果 。SVM 能 够 对 训练 集 之 外 的 

数据 点 做 出 很 好 的 分 类 决 集 。 


本 章 首 先 讲 述 SVM 的 基本 概念 ， 书 中 会 引入 一 些 关 键 术语 。SVM 有 很 
多 实现 ， 但 是 本 章 只 关注 其 中 最 流行 的 一 种 实现 ， 即 序列 最 小 优 

化 ' (Sequential Minimal Optimization，SMO ) 算法 。 在 此 之 后 ， 将 介绍 
如 何 使 用 一 种 称 为 核 函 数 (kernel) 的 方式 将 SVM 扩展 到 更 多 数据 集 
上 。 最 后 会 回顾 第 1 草 中 手写 识别 的 例子 ， 并 考察 其 能 售 通 过 SVM 来 提 
高 识别 的 效果 。 


1. 一 种 求解 支持 向 量 机 二 次 规划 的 算法 。 一 一 译 者 注 




















6.1 基于 最 大 间 隅 分 隔 数据 
支持 向 量 机 


优点 泛 化 错误 率 低 ， 计 算 开销 不 大 ， 结 果 易 解释 。 

缺点 : 对 参数 调 三 和 核 函 数 的 选择 敏感 ， 原 始 分 类 絮 不 加 修改 仅 适 
用 于 处 理 二 类 问题 。 

适用 数据 类 型 : 数值 型 和 标 称 型 数据 。 


在 介绍 SVM 这 个 主题 之 前 ， 先 解释 几 个 概念 。 考 虑 图 6-1 中 A-D 共 4 个 方 
框 中 的 数据 点 分 布 ， 一 个 问题 融 是 ， 能 否 男 出 一 条 直线 将 圆 形 点 和 方形 
点 分 开 昵 ? 先 考 虑 图 6-2 方 框 A 中 的 两 组 数据 ， 它 们 之 间 已 经 分 隔 得 足够 
开 ， 因 此 很 容易 就 可 以 在 图 中 男 出 一 条 直线 将 两 组 数据 点 分 开 。 在 这 种 
情况 下 ， 这 组 数据 被 称 为 线性 可 分 (inearly separable) 数据 。 读 者 先 不 
必 担 心 上 述 假设 是 否 过 于 完美 ， 稍 后 当 直 线 不 能 将 数据 点 分 开 时 ， 我 们 
会 对 上 述 假 设 做 一 些 修改 。 
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图 6-1 4 个 线性 不 可 分 的 数据 集 


上 述 将 数据 集 分 隔 开 来 的 直线 称 为 分 隔 超 平面 (separating 
hyperplane) 。 在 上 面 给 出 的 例子 中 ， 由 于 数据 点 都 在 二 维 平面 上 ， 所 
以 此 时 分 隔 超 平面 就 只 是 一 条 直线 。 但 是 ， 如 果 所 给 的 数据 集 是 三 维 
的 ， 那 么 此 时 用 来 分 隅 数据 的 就 是 一 个 平面 。 显 而 易 见 ， 更 高 维 的 情况 
可 以 依 此 类 推 。 如 果 数 据 集 是 1024 维 的 ， 那 么 就 需要 一 个 1023 维 的 某 某 
对 象 来 对 数据 进行 分 隔 。 这 个 1023 维 的 某 某 对 象 到 底 应 该 叫 什么 ?N-1 
维 呢 ? 该 对 象 被 称 之 为 超 平面 (hyperplane) ， 也 就 是 分 类 的 决策 边 

E。 分 布 在 超 平面 一 侧 的 所 有 数据 都 属于 某 个 类 别 ， 而 分 布 在 男 一 侧 的 
所 有 数据 则 属于 另 一 个 类 别 。 


我 们 希望 能 采用 这 种 方式 来 构建 分 类 器 ， 即 如 果 数 据点 离 决 全 边界 越 

















远 ， 那 么 其 最 后 的 预测 结果 也 束 越 可 信 。 考 虑 图 6-2 框 B 到 框 D 中 的 三 条 
直线 ， 它 们 都 能 将 数据 分 阳 开 ， 但 是 其 中 哪 一 条 最 好 呢 ?” 是 否 应 该 最 小 
化 数据 点 到 分 隔 超 平面 的 平均 距离 来 求 最 佳 直线 ?y 如果 是 那样 ， 图 6-2 

的 B 和 C 框 中 的 直线 是 否 真 的 就 比 D 框 中 的 直线 好 呢 ? 如 果 这 样 做 ， 是 不 
是 有 点 寻找 最 佳 拟 合 直 线 的 感觉 ? 是 的 ， 上 述 做 法 确实 有 点 像 直线 拟 

合 ， 但 这 并 非 最 佳 方案 。 我 们 希望 找到 离 分 隔 超 平面 最 近 的 点 ， 确 保 它 
们 离 分 隔 面 的 距离 尽 可 能 远 。 这 里 点 到 分 隔 面 的 距离 被 称 为 间隔 

' (margin) 。 我 们 和 希望 间隔 尽 可 能 地 大 ， 这 是 因为 如 果 我 们 犯错 或 者 在 
有 限 数 据 上 训练 分 类 器 的 话 ， 我 们 希望 分 类 器 尺 可 能 健壮 。 


支持 同 量 (support vector) 就 是 离 分 隔 超 平 面 最 近 的 那些 点 。 接 下 来 要 
a 需要 找到 此 问题 的 优化 求解 方 
法 。 
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图 6-2 A 框 中 给 出 了 一 个 线性 可 分 的 数据 集 ，B、C、D 框 中 各 自给 出 
了 一 条 可 以 将 两 类 数据 分 开 的 直线 


6.2 “寻找 最 大 间隔 


如 何 求解 数据 集 的 最 佳 分 阳 和 直线 ? 先 来 看 看 图 6-3。 分 隅 超 平面 的 形式 
可 以 写成 wxrb。 要 计算 氮 A 到 分 隔 超 平面 的 距离 ， 瓯 必须 给 出 点 到 分 隔 
面 的 法 线 或 垂 线 的 长 度 ， 该 值 为 lwA+rb1/llwl1。 这 里 的 向 数 b 类 似 于 
Logistic 回 归 中 的 截 距 w。 这 里 的 问 量 w 和 第 数 b 一 起 描述 了 所 给 数据 的 分 
隔 线 或 超 平面 。 接 下 来 我 们 讨论 分 类 器 。 





函数 间隔 











图 6-3 ”A 到 分 隔 平 面 的 距离 就 是 该 点 到 分 隔 面 的 法 线 长 度 
6.2.1 分 类 右 求 解 的 优化 问题 


前 面 已 经 提 到 了 分 类 器 ， 但 还 没有 介绍 它 的 工作 原理 。 理 解 其 工作 原理 
将 有 助 于 理解 基于 优化 问题 的 分 类 器 求解 过 程 。 输 入 数据 给 分 类 器 会 输 
出 一 个 类 别 标签 ， 这 相当 于 一 个 类 似 于 Sigmoid 的 函数 在 作用 。 下 面 将 
使 用 类 似 海 维 赛 德 阶 跃 函数 《〈 即 单位 阶 跃 函 数 ) 的 函数 对 wx+b 作 用 得 
到 f(wx+b)， 其 中 当 u<o 时 f(u) 输 出 -1， 反 之 则 输出 +1。 这 和 前 一 章 的 
Logistic 回 归 有 所 不 同 ， 那 里 的 类 别 标签 是 0 或 1。 


这 里 的 类 别 标签 为 什么 采用 H1 和 +1， 而 不 是 0 和 1 呢 ? 这 是 由 于 H1 和 +1 


仪 仅 相 差 一 个 符号 ， 方便 数学 上 的 处 理 。 我 们 可 以 通过 一 个 统一 公式 来 
表示 间隔 或 者 数据 点 到 分 隔 超 平面 的 距离 ， 同 时 不 必 担 心 数 据 到 底 是 局 
于 H1 还 是 +1 类 。 


当 计 算数 据点 到 分 隔 面 的 距离 并 确定 分 隔 面 的 放置 位 置 时 ， 间 隔 是 通过 
label * (wx+b): 来 计算 ， 这 时 就 能 体现 出 -1 和 +1 类 的 好 处 了 。 如 果 数 据 
点 处 于 正方 同 〈 即 +1 类 ) 并 且 离 分 阳 超 平面 很 远 的 位 置 时 ，wxtb 会 龙 
一 个 很 大 的 正 数 ， 同 时 label * (wx+b) 也 会 是 一 个 很 大 的 正 数 。 而 如 果 
数据 点 处 于 负 方 向 〈-1 类 ) 并 且 离 分 隔 超 平面 很 远 的 位 置 时 ， 此 时 由 于 
类 别 标签 为 -1， 则 label * (wx+b) 仍 然 是 一 个 很 大 的 正 数 。 


现在 的 目标 就 是 找 出 分 类 絮 定 义 中 的 w 和 b。 为 此 ， 我 们 必须 找到 具有 最 
小 间隔 的 数据 点 ， 而 这 些 数 据点 也 残 是 前 面 所 到 的 支持 向 量 。 一 旦 找到 
具有 最 小 间隔 的 数据 点 ， 我 们 束 需 要 对 该 间隔 最 大 化 。 这 就 可 以 写作 : 




















arg max inllabel (wx +pb))-: 


| | 


直接 求解 上 述 问 题 相当 困难 ， 所 以 我 们 将 它 转换 成 为 男 一 种 更 容易 求解 
的 形式 。 首 先 考 察 一 下 上 式 中 大 括号 内 的 部 分 。 由 于 对 乘积 进行 优化 是 
一 件 很 讨厌 的 事情 ， 因 此 我 们 要 做 的 是 固定 其 中 一 个 因子 而 最 大 化 其 他 
因子 。 如 果 令 所 有 支持 向 量 的 label * (wx+b) 都 为 1， 那 么 就 可 以 通过 
求 | |wl 上 的 最 天 全 来 得 屯 最 终 解 。 但 是 ， 并 非 所 有 数据 点 的 label * 
(wx+b) 都 等 于 1， 只 有 那些 离 分 隔 超 平 面 最 近 的 点 得 到 的 值 才 为 1。 而 离 
超 平面 越 远 的 数据 点 ， 其 1abel * (wx+b) 的 值 也 就 越 大 。 


在 上 述 优化 问题 中 ， 给 定 了 一 些 约束 条 件 然后 求 最 优 值 ， 因 此 该 问题 是 
一 个 带 约束 条 件 的 优化 问题 。 这 里 的 约束 条 件 就 是 label * (wix+b)> 
1.0。 对 于 这 类 优化 问题 ， 有 一 个 非常 著名 的 求解 方法 ， 即 拉 格 朗 日 乘 
子 法 。 通 过 引入 拉 格 朗 日 乘 子 ， 我 们 就 可 以 基于 约束 条 件 来 表述 原来 的 
问题 。 由 于 这 里 的 约束 条 件 都 是 基于 数据 点 的 ， 因 此 我 们 就 可 以 将 超 平 
面 写成 数据 点 的 形式 。 于 是 ， 优 化 目标 函数 最 后 可 以 写成 : 
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max > er 3 labelt .label9) a; ( | 


其 约束 条 件 为 : 


mi 
Q 宇 0， 和 a 2 .label =0 
il 


至 此 ， 一 切 都 很 完美 ， 但 是 这 里 有 个 假设 : 数据 必须 100% 线 性 可 分 。 
目前 为 止 ， 我 们 知道 几乎 所 有 数据 都 不 不 可 能 那么 干净”。 这 时 我 们 束 
可 以 通过 引入 所 谓 松 弛 变量 (slack variable) ， 来 允许 有 些 数 据点 可 以 
处 于 分 隔 面 的 错误 一 侧 。 这 样 我 们 的 优化 目标 束 能 保持 仍然 不 变 ， 但 是 
此 时 新 的 约束 条 件 则 变 为 : 


C0, 和 》 a -label” =0 
i-l 





这 里 的 常数 c 用 于 控制 “最 大 化 间隔 ”和 “保证 大 部 分 点 的 函数 间隔 :小 于 
1.0” 这 两 个 日 标的 权重 。 在 优化 算法 的 实现 代码 中 ， 常 数 c 是 一 个 参数 ， 
因此 我 们 就 可 以 通过 调 市 该 参数 得 到 不 同 的 结果 。 一 旦 求 出 了 所 有 的 
alpha， 那 么 分 隔 超 平面 就 可 以 通过 这 些 alpha 来 表达 。 这 一 结论 十 分 直 
接 :， SVM 中 的 主要 工作 就 是 求解 这 些 alpha。 














label* (wzrx+b),- 
|wl 


本 了 | 
,label * (w xf+b) 中 称 为 点 分 隔 面 的 几何 间隔 。 一 一 译 者 注 


被 称 为 点 到 分 隔 面 的 函数 间隔 ， 


要 理解 刚才 给 出 的 这 些 公式 还 需要 大 量 的 知识 。 如 果 你 有 兴趣 ， 我 强烈 
建议 去 伍 阅 相关 的 教材 ;*， 以 获得 上 述 公 式 的 推导 细 证 。 


3. Christopher M. Bishop, Pattern Recognition and Machine Learning (Springer, 2006). 


4. Bernhard Schlkopf and Alexander J. Smola, Learning with Kernels: Support Vector Machines, Regularization, Optimization,and Beyond (MIT Press, 2001). 


6.2.2 ”SVM 应 用 的 一 般 框架 


在 第 1 章 中 ， 我 们 定义 了 构建 机 器 学 习 应 用 的 一 般 步 又 ， 但 是 这 些 步 又 
会 随机 器 学 习 任务 或 算法 的 不 同 而 有 所 改变 ， 因 此 有 必要 在 此 探讨 如 何 
在 本 章 中 实现 它们 。 








SVM 的 一 般 流程 


. 收集 数据 : 可 以 使 用 任意 方法 。 

. 准备 数据 : 需要 数值 型 数据 。 

. 分 析 数 据 : 有 助 于 可 视 化 分 隔 超 平面 。 

. 训练 算法 : SVM 的 大 部 分 时 间 都 源 自 训练 ， 该 过 程 主要 实现 两 个 参 
数 的 调 优 。 

5. 测试 算法 : 十 分 简单 的 计算 过 程 就 可 以 实现 。 

6. 使 用 算法 : 几乎 所 有 分 类 问题 都 可 以 使 用 SVM， 值 得 一 提 的 是 ， 
和 
一 些 修改 。 


到 目前 为 止 ， 我们 已 经 了 解 了 一 些 理论 知识 ， 我 们 当然 希望 能 够 通过 编 
程 ， 在 数据 集 上 将 这 些 理论 付 诸 实 践 。 下 一 节 将 介绍 一 个 简单 但 很 强大 
的 实现 算法 。 
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6.3” SMO 局 效 优化 算法 


接 下 来 ， 我 们 根据 6.2.1 市 中 的 最 后 两 个 式 子 进 行 优 化 ， 其 中 一 个 是 最 小 
化 的 目标 函数 ， 一 个 是 在 优化 过 程 中 必须 遵循 的 约束 条 件 。 不 久之 前 ， 

人 们 还 在 使 用 二 次 规划 求解 工具 (guadratic _ solver) 来 求解 上 述 最 优化 
问题 ， 这 种 工具 是 一 种 用 于 在 线性 约束 下 优化 具有 多 个 变量 的 二 次 目标 
函数 的 软件 。 而 这 些 二 次 规划 求解 工具 则 需要 强大 的 计算 能 力 文 撑 ， 另 
外 在 实现 上 也 十 分 复杂 。 所 有 需要 做 的 围绕 优化 的 事情 就 是 训练 分 类 

器 ， 一 旦 得 到 alpha 的 最 优 值 ， 我 们 就 得 到 了 分 隔 超 平面 (2 维 平 面 中 束 
是 直线 ) 并 能 够 将 之 用 于 数据 分 类 。 


下 面 我 们 就 开始 讨论 SMO 算 法 ， 然 后 给 出 一 个 简化 的 版 本 ， 以 便 读者 能 
够 正确 理解 它 的 工作 流程 。 后 一 节 将 会 给 出 SMO 算 法 的 完整 版 ， 它 比 简 
化 版 的 运行 速度 要 快 很 多 。 


6.3.1 Platt 的 SMO 算 法 


1996 年 ，John Platt 发布 了 一 个 称 为 SMO' 的 强大 算法 ， 用 于 训练 SVM。 
SMO 表 示 序 列 最 小 优化 (Sequential Minimal Optimization) 。Platt 的 
SMO 算 法 是 将 大 优化 问题 分 解 为 多 个 小 优化 问题 来 求解 的 。 这 些小 优化 
问题 往往 很 容易 求解 ， 并 且 对 它们 进行 顺序 求解 的 结果 与 将 它们 作为 整 
eh 
符 H 时 间 短 很 多 。 


SMO 算 法 的 目标 是 求 出 一 系列 alpha 和 b， 一 旦 求 出 了 这 些 alpha， 束 很 
容易 计算 出 权重 向 量 w 并 得 到 分 隔 超 平 面 。 


SMO 算 法 的 工作 原理 是 : 每 次 循环 中 选择 两 个 alpha 进 行 优 化 处 理 。 一 
且 找 到 一 对 合适 的 alpha， 那 么 就 增 大 其 中 一 个 同时 减 小 另 一 个 。 这 里 
所 谓 的 “合适 ? 束 是 指 两 个 aljpha 必 须要 符合 一 定 的 条 件 ， 条 件 之 一 就 是 这 
两 个 alpha 必 须要 在 间隔 边界 之 外 ， 而 其 第 二 个 条 件 则 是 这 两 个 alpha 还 
没有 进行 过 区 间 化 处 理 或 者 不 在 边界 上 。 


1. John C. Platt, “Using Analytic QP and Sparseness to Speed Training of Support Vector Machines” in Advances in Neural Information Processing Systems 11, M. S. Kearns, S. A. Solla, D. A. 
Cohn, eds(MIT Press, 1999), 557-63. 


6.3.2 ”应 用 简化 版 SMO 算 法 处 理 小 规模 数据 集 























Platt "SMO 算法 的 完整 实现 需要 大 量 代码 。 在 接 下 来 的 第 一 个 例子 中 ， 
我 们 将 会 对 算法 进行 简化 处 理 ， 以 便 了 解 算 法 的 基本 工作 思路 ， 之 后 再 
基于 简化 版 给 出 完整 版 。 简 化 版 代码 虽然 量 少 但 执行 速度 慢 。Platt 

SMO 算 法 中 的 外 循环 确定 要 优化 的 最 佳 alpha 对 。 而 简化 版 却 会 跳 过 这 
一 部 分 ， 首 先 在 数据 集 上 遍历 每 一 个 alpha， 然 后 在 剩 下 的 alpha 集 合 中 
随机 选择 另 一 个 alpha， 从 而 构建 apha 对 。 这 里 有 一 点 相当 重要 ， 就 是 
我 们 要 同时 改变 两 个 alpha。 之 所 以 这 样 做 是 因为 我 们 有 一 个 约束 条 件 : 











2 .label@ =0 


由 于 改变 一 个 alpha 可 能 会 导致 该 约束 条 件 失 效 ， 因 此 我 们 总 是 同时 改变 
两 个 alpha。 


为 此 ， 我 们 将 构建 一 个 辅助 函数 ， 用 于 在 某 个 区 间 范 围 内 随机 选择 一 个 
整数 。 同 时 ， 我 们 也 需要 另 一 个 辅助 函数 ， 用 于 在 数值 太 大 时 对 其 进行 
调整 。 下 面 的 程序 清单 给 出 了 这 两 个 函数 的 实现 。 读 者 可 以 打开 一 个 文 
本 编辑 器 将 这 些 代 码 加 入 到 svmMLiA.py 文 件 中 。 


程序 清单 6-1 SMO 算 法 中 的 辅助 函数 


def loadDataSet (fileName): 
dataMat = []; labelMat = [] 
fr = open(fileName) 
for line in fr.readlines(): 
lineArr = line.strip().split('\t') 
dataMat .append( [float(lineArr[0]), float(lineArr[1])]) 
labelMat .append(float(lineArr[2])) 
return dataMat, labelMat 
def selectJrand(i,m): 
j=i 
while (j==1i): 
j = int(random.uniform(0,m)) 
return J 
def clipAlpha(aj,H,L): 
if aj > H: 


return aj 





在 testSet.txt 文 件 中 保存 了 图 6-3 所 给 出 的 数据 是 。 接 下 来 ， 我 们 就 将 在 
这 个 文件 上 应 用 SMO 算 法 。 程 友 清 蛙 6-1 中 的 第 一 个 函数 整 是 我 们 所 熟 
知 的 loadpatset() 函 数 ， 该 函数 打开 文件 并 对 其 进行 逐 行 解析 ， 从 而 得 


到 每 行 的 类 标签 和 整个 数据 矩阵 。 


= 0 其 中 i 是 第 一 ) et 
和 只 要 函数 值 不 等 于 输入 值 i， 函 数 就 会 进行 随 
放 选 择 。 


ee 它 是 用 于 调整 大 于 H 或 小 于 [的 
尽管 上 述 3 个 辅助 函数 本 身 做 的 事情 不 多 ， 但 在 分 类 器 中 却 很 
用 处 。 


在 输入 并 保存 程序 清单 6-1 中 的 代码 之 后 ， 运 行 如 下 命令 : 


>>> import svmMLiA 

>>> dataArr, labelArr = svmMLiA.loadDataSet('testSet.txt') 

>>> labelArr 

[-1.0, -1.0, 1.0, -1.0, 1.0, 1.0, 1.0, -1.0, -1.0, -1.0, -1.0, -1.0, -1.0, 1.0... 


可 以 看 得 出 来 ， 这 里 采用 的 类 别 标签 是 -1 和 1， 而 不 是 0 和 1。 
上 述 工作 完成 之 后 ， 束 可 以 使 用 SMO 算 法 的 第 一 个 版 本 了 。 
该 SMO 函 数 的 伪 代 码 看 上 去 像 下 面 这 个 样子 : 


创建 一 个 alpha 向 量 并 将 其 初始 化 为 0 向 量 

当 和 迭代 次 数 小 于 最 大 迭代 次 数 时 《外 循环 ) 
对 数据 集中 的 每 个 数据 向 量 〈 内 循环 ) : 
如 果 该 数据 向 量 可 以 被 优化 : 

随机 选择 另外 一 个 数据 向 量 

时 优化 这 两 个 向 量 

果 两 个 向 量 都 不 能 被 优化 ， 退 出 内 循环 

如 果 所 有 向 量 都 没 被 优化 ， 增 加 迭代 数目 ， 继 续 下 一 次 循环 
















































































慰 和 























MO 在 Python 中 ， 如 果 
某 行 以 \ 符 号 结束 ， 那 么 就 意味 着 该 行 语句 没有 结束 并 会 在 下 一 行 延 
续 。 下 面 的 代码 当中 有 很 多 很 长 的 语句 必须 要 分 成 多 行 来 写 。 因 此 ， 下 
面 的 程序 中 使 用 了 多 个 \ 符 号 。 打 开 文 件 SvmMLiA.py 之 后 输入 如 下 程序 
清单 中 的 代码 。 


程序 清单 6-2 ”简化 版 SMO 算 法 


def smoSimple(dataMatIin, classLabels, C, toler, maxIter): 
dataMatrix = mat(dataMatIn); labelMat = mat(classLabels).transpose() 
b= 0; m,n = shape(dataMatrix) 








alphas = mat(zeros((m,1))) 
Iter = 0 
while (iter < maxIter): 
alphaPairsChanged = 0 
for i in range(m): 
fxi = float(multiply(alphas,1labelMat).T* (dataMatrix*dataMatrix[i,:]. 
Ei = fxXi - float(labelMat[i]) 
#@@ 如 果 alpha 可 以 更 改进 入 优化 过 程 

















if ((labelMat[i]*Ei < - 
toler) and (alphas[i] < C)) or ((labelMat[i]*Ei > toler) and (alphas[i] > 0)): 
#@ 随机 选择 第 二 个 alpha 
j = selectJrand(i,m) 





fxj = float(multiply(alphas,1labelMat).T* 
(dataMatrix“dataMatrix[],: ].T)) + b 
Ej = fxj - float(labelMat[j]) 
alphaIold = alphas[i].copy(); 
alphaJold = alphas[j].copy(); 
# 加 〈 以 下 六 行 ) 保证 alpha 在 9 与 C 之 间 
if (labelMat[i] != labelMat[j]): 
L = max(0, alphas[j] - alphas[i]) 
H min(C, C + alphas[j] - alphas[i]) 
else: 
L max(0, alphas[j] + alphas[i] - C) 
H = min(C, alphas[j] + alphas[i]) 
If L==H: print "L==H"; continue 
eta = 2.0 * dataMatrix[i,:]*dataMatrix[j,:].T - dataMatrix[i,:]*d 
if eta >= 0: print "eta>=0"; continue 
alphas[j] -= labelMat[j]*(Ei - Ej)/eta 
alphas[j] = clipAlpha(alphas[j],H,L) 
if (abs(alphas[j] - alphaJold) < 0.00001): print "j not moving en 
#@@ 对 i 进行 修改 ， 修 改 量 与 j 相 同 ， 但 方向 相反 
alphas[i] += labelMat[j]*labelMat[i]*(alphaJold - alphas[j]) 
bi = b - Ei- labelMat[i]*(alphas[i]- 
alphaIold)* dataMatrix[i,:]*dataMatrix[i,:].T - labelMat[j]*(alphas[j]- 
alphaJold)* dataMatrix[i,:]*dataMatrix[j,:].T 
#@〈 以 下 七 行 ) 设置 常数 项 















































b2 = b - Ej- labelMat[i]*(alphas[i]- 
alphaIold)*dataMatrix[i,:]*dataMatrix[j,:].T - labelMat[j]*(alphas[j]- 
alphaJold)*dataMatrix[j,:]*dataMatrix[j,:].T 
if (0 < alphas[i]) and (C > alphas[i]): b = bi 
elif (0 < alphas[j]) and (C > alphas[j]): b = b2 


else: b = (bi + b2)/2.0 
alphaPairsChanged += 1 
print "iter: %d i:%d, pairs changed %d" % (iter,i,alphaPpairsChang 
If (alphapairsChanged == 0): iter += 1 
else: iter = 0 
print "iteration number: %d" % iter 
return b,alphas 





这 个 函数 比较 大 ， 或 许 是 我 所 知道 的 本 书 中 最 六 的 一 人 函数。 该 函数 有 
5 个 输入 参数 ， 分 别 是 : 数据 集 、 类 别 标签 、 和 常数 c、 容错 率 和 退出 前 最 
大 的 循环 次 数 。 在 本 书 ， 我 们 构建 函数 时 采用 了 通用 的 接口 ，; 这 样 就 可 
以 对 算法 和 数据 源 进 和 了 组 合 或 配对 处 理 。 上 述 函 数 将 多 个 列表 和 输入 参 
数 转换 成 NumPy 和 矩阵 ，; 这 样 就 可 以 简化 很 多 数学 处 理 操作 。 由 于 转 置 了 
类 别 标签 ， 因 此 我 们 得 到 的 就 是 一 个 列 同 量 而 不 是 列表 。 于 是 类 别 标签 











问 量 的 每 行 元 素 都 和 数据 惩 阵 中 的 行 一 一 对 应 。 我 们 也 可 以 通过 拢 

阵 dataMatIn 的 shape 属 性 得 到 第 数 m 和 n。 最 后 ， 我 们 就 可 以 构建 一 个 
alpha 列 年 阵 ， 和 矩阵 中 元 素 都 初始 化 为 0， 并 建立 一 个 iter 变 量 。 该 变量 
存储 的 则 是 在 没有 任何 alpha 改 变 的 情况 下 过 历数 据 集 的 次 数 。 当 该 变量 
达到 输入 值 naxIter 时 ， 函 数 结束 运行 并 退出 。 


每 次 循环 当中 ， 将 alphaPairschanged 先 设 为 0， 然 后 再 对 整个 集合 顺序 
遍历 。 变 量 alphaPairschanged 用 于 记录 alpha 是 人 否 已 经 进行 优化 。 当 
然 ， 在 循环 结束 时 就 会 得 知 这 一 点 。 首 先 ，fxi 能 够 计算 出 来 ， 这 就 是 
我 们 预测 的 类 别 。 然 后 ， 基 于 这 个 实例 的 预测 结果 和 真实 结果 的 比 对 ， 
就 可 以 计算 误差 Ei。 如 果 误差 很 大 ， 那 么 可 以 对 该 数据 实例 所 对 应 的 
alpha 值 进行 优化 。 对 该 条 件 的 测试 处 于 上 述 程序 清单 的 @ 处 。 在 if 语 句 
中 ， 不 管 是 正 间 隔 还 是 负 间 隔 都 会 被 测试 。 并 且 在 该 if 语 句 中 ， 也 要 同 
时 检查 alpha 值 ， 以 保证 其 不 能 等 于 0 或 C。 由 于 后 面 alpha 小 于 0 或 大 于 C 
时 将 被 调整 为 0 或 C， 所 以 一 旦 在 该 和 f 语 句 中 它们 等 于 这 两 个 值 的 话 ， 那 
和 它们 就 已 经 在 “边界 "上 了 ， 因 而 不 再 能 够 减 小 或 增 大 ， 因 此 也 就 不 什 
得 再 对 它们 进行 优化 了 。 


接 下 来 ， 可 以 利用 程序 清单 6-1 中 的 辅助 函数 来 随机 选择 第 二 个 alpha 
值 ， 即 alpha[j] 人 全。 同样 ， 可 以 采用 第 一 个 alpha 值 (alpha[i]) 的 误差 计 
算 方 法 ， 来 计算 这 个 alpha 值 的 误差 。 这 个 过 程 可 以 通过 copy() 的 方法 来 
实现 ， 因 此 稍 后 可 以 将 新 的 alpha 值 与 老 的 alpha 值 进行 比较 。Python 则 会 
通过 引用 的 方式 传递 所 有 列表 ， 所 以 必须 明确 地 告知 Python 要 

为 alphaIold 和 alphaJold 分 配 新 的 内 存 ; 否则 的 话 ， 在 对 新 值 和 旧 值 进 
行 比 较 时 ， 我 们 就 看 不 到 新 旧 值 的 变化 。 之 后 我 们 开始 计算 L 和 H 全 ， 臣 
们 用 于 将 alpharj] 调 整 到 0 到 c 之 间 。 如 果 L 和 H 相 等 ， 就 不 做 任何 改变 ， 
直接 执行 continue 语 句 。 这 在 Python 中 ， 则 意味 着 本 次 循环 结束 直接 运 
行 下 一 次 for 的 循环 。 


Eta 是 alpha[j] 的 最 优 修 改 量 ， 在 那个 很 长 的 计算 代码 行 中 得 到 。 如 果 
eta 为 9， 那 就 是 说 需要 退出 for 循 环 的 当前 迭代 过 程 。 该 过 程 对 真实 
SMO 算 法 进行 了 简化 处 理 。 如 果 eta 为 0， 那 么 计算 新 的 alpha[j] 就 比较 
及 烦 了 ， 这 里 我 们 就 不 对 此 进行 详细 的 介绍 了 。 有 和 需要 的 读者 可 以 阅读 
Platt 的 原文 来 了 解 更 多 的 细节 。 现 实 中 ， 这 种 情况 并 不 第 友 生 ， 因 此 名 
略 这 一 部 分 通常 也 无 伤 大 雅 。 于 是 ， 可 以 计算 出 一 个 新 的 alpha[j]， 然 
后 利用 程序 清单 6-1 中 的 辅助 函数 以 及 [与 H 值 对 其 进行 调整 。 


然后 ， 就 是 需要 检查 alpha[j] 是 否 有 轻微 改变 。 如 果 是 的 话 ， 就 退出 





























for 循 环 。 然 后 ，alpha[i] 和 alpha[j] 同 样 进行 改变 ， 虽 然 改 变 的 大 小 一 
样 ， 但 是 改变 的 方 回 正好 相反 那么 另外 一 个 减少 ) 
加. 在 对 alpha[il] 和 alpha[j] 进 行 优 化 之 后 ， 给 这 两 个 alpha 值 设置 一 个 
常数 项 bp@。 


最 后 ， 在 优化 过 程 结束 的 同时 ， 必 须 确保 在 合适 的 时 机 结束 循环 。 如 果 
程序 执行 到 for 循 环 的 最 后 一 行 都 不 执行 continue 语 句 ， 那 么 就 已 经 成 
0 对 alpha， 同 时 可 以 增加 alphaPairschanged 的 值 。 在 for 循 
环 之 外 ， 要 检 查 alpha 值 是 侣 做 了 更 新 ， 如 果 有 更 新 则 将 iter 设 为 0 后 
继续 运行 程序 。 只 有 在 所 有 数据 集 上 遍历 maxIter 次 ， 且 不 再 发 生 任何 
alpha 修 改 之 后 ， 程序 才 会 停止 并 退 由 while 循环 。 


为 了 解 实 际 效 果 ， 可 以 运行 如 下 命令 : 


>>> balphas = svmMLiA.smoSimple(dataArr, labelArr, 0.6, 0.001, 40) 





运行 后 输出 类 似 如 下 结 


iteration number: 29 

j not moving enough 

iteration number: 30 

iter: 30 i:17, pairs changed 1 
j not moving enough 

iteration number: 0 

j not moving enough 

iteration number: 1 





上 述 运 行 过 程 需 要 几 分 钟 才 会 收敛 。 一 旦 运行 结束 ， 我 们 可 以 对 结果 进 


>>> b 
matrix([[-3.84064413]]) 





我 们 可 以 直接 观察 alpha 和 矩阵 本 身 ， 但 是 其 中 的 零 元 素 太 多 。 为 了 观察 大 
于 0 的 元 素 的 数量 ， 可 以 输入 如 下 命令 : 


>>> alphas[alphas>0] 
matrix([[ 0.12735413，0.24154794，0.36890208]] ) 








由 于 SMO 算 法 的 随机 性 ， 读 者 运行 后 所 得 到 的 结果 可 能 会 与 上 述 结果 不 


同 。alphas[alphas>0] 命 令 是 数组 过 滤 (array _ filtering) 的 一 个 实例 ， 
而 且 它 只 对 NumPy 类 型 有 用 ， 却 并 不 适用 于 Python 中 的 正则 表 (regular 
list) 。 如 有 果 输 入 alpha>9， 那 么 就 会 得 到 一 个 布尔 数组 ， 并 且 在 不 等 式 
成 立 的 情况 下 ， 其 对 应 值 为 正确 的 。 于 是 ， 在 将 该 布尔 数组 应 用 到 原始 
5 就 会 得 到 一 个 NumPy 和 矩阵 ， 并 且 其 中 矩阵 仅仅 包含 大 于 
0 的 但 。 


为 了 得 到 文 持 同 量 的 个 数 ， 输 入 : 


>>> shape(alphas[alphas>0]) 




















为 了 解 哪些 数据 点 是 支持 向量 ， 输 入 : 


>>> for i in range(100): 
: if alphas[i]>0.0: print dataArr[i],1labelArr[i] 


得 到 的 结果 类 似 如 下 : 


[4.6581910000000004, 3.507396] -1.0 
[3.4570959999999999,， -0.082215999999999997] -1.0 
[6.0805730000000002, 0.41888599999999998] 1.0 














在 原始 数据 集 上 对 这 些 文 持 癌 量 画 峰之 后 的 结果 如 图 6-4 所 示 。 


用 回 圈 标 记 的 支持 向 量 





> 0 2 4 6 8 10 12 


图 6-4 在 示例 数据 集 上 运行 简化 版 SMO 算 法 后 得 到 的 结果 ， 包 括 画 图 
的 文 持 癌 量 与 分 隔 超 平面 


利用 前 面 的 设置 ， 我 运行 了 10 次 程序 并 取 其 平均 时 间 。 结 果 是 ， 这 个 过 
程 在 一 台 性 能 较 差 的 笔记 本 上 需要 14.5 秒 。 虽 然 结 果 看 起 来 并 不 是 太 

差 ， 但 是 别 忘 了 这 只 是 一 个 仅 有 100 个 点 的 小 规模 数据 集 而 已 。 在 更 大 
的 数据 集 上 ， 收 敛 时 间 会 变 得 更 长 。 在 下 一 节 中 ， 我 们 将 通过 构建 完整 
SMO 算 法 来 加 快 其 运行 速度 。 








6.4 利用 完整 Platt SMO 算 法 加 速 优 化 


在 几 百 个 点 组 成 的 小 规模 数据 集 上 ， 简 化 版 SMO 算 法 的 运行 是 没有 什么 
问题 的 ， 但 是 在 更 大 的 数据 集 上 的 运行 速度 就 会 变 慢 。 刚 才 已 经 讨论 了 
简化 版 SMO 算 法 ， 下 面 我 们 就 讨论 完整 版 的 Platt SMO 算 法 。 在 这 两 个 
版 本 中 ， 实 现 alpha 的 更 改 和 代数 运算 的 优化 环节 一 模 一 样 。 在 优化 过 程 
中 ， 唯 一 的 不 同 就 是 选择 alpha 的 方式 。 完 整 版 的 Platt SMO 算 法 应 用 了 
一 些 能 够 提速 的 局 发 方法 。 或 许 读者 已 经 意识 到 ， 上 一 市 的 例子 在 执行 
时 存在 一 定 的 时 间 提 升 空间 。 


Platt SMO 算 法 是 通过 一 个 外 循环 来 选择 第 一 个 alpha 值 的 ， 并 且 其 选择 
过 程 会 在 两 种 方式 之 间 进 行 交 蔡 : 一 种 方式 是 在 所 有 数据 集 上 进行 单 裔 
扫描 ， 另 一 种 方式 则 是 在 非 边界 alpha 中 实现 单 遍 扫描 。 而 所 谓 非 边界 
alpha 指 的 就 是 那些 不 等 于 边界 0 或 C 的 alpha 值 。 对 整个 数据 集 的 扫描 相 
当 容 易 ， 而 实现 非 边界 alpha 值 的 扫 拉 时， 首先 需要 建立 这 些 alpha 值 的 
列表 ， 然 后 再 对 这 个 表 进 行 过 历 。 同 时 ， 该 步骤 会 跳 过 那些 已 知 的 不 会 
改变 的 alpha 值 。 


在 选择 第 一 个 alpha 值 后 ， 算 法 会 通过 一 个 内 循环 来 选择 第 二 个 alpha 
值 。 在 优化 过 程 中 ， 会 通过 最 大 化 步 长 的 方式 来 获得 第 二 个 alpha 值 。 
在 简化 版 SMO 算 法 中 ， 我 们 会 在 选择 j 之 后 计算 错误 率 Ej。 但 在 这 里 ， 
我 们 会 建立 一 个 全 局 的 缓存 用 于 保存 误差 值 ， 并 从 中 选择 使 得 步 长 或 者 
说 Ei-Ej 最 大 的 alpha 值 。 


在 讲述 改进 后 的 代码 之 前 ， 我 们 必须 要 对 上 和 节 的 代码 进行 清理 。 下 面 的 
程序 清单 中 包含 1 个 用 于 清理 代码 的 数据 结构 和 3 个 用 于 对 E 进 行 缓存 的 
辅助 函数 。 我 们 可 以 打开 一 个 文本 编辑 器 ， 输 入 如 下 代码 : 


程序 清单 6-3 ”完整 版 Platt SMO 的 支持 函数 


class optStruct: 
def _ init (self,dataMatIin, classLabels, C, toler): 
self.X = dataMatIn 
self.labelMat = classLabels 
self.C=C 
self.tol = toler 
self.m = shape(dataMatIn)[0] 
self.alphas = mat(zeros((self.m,1))) 
self.b = 0 
#@ 误差 缓存 


self.eCache = mat(zeros((self.m,2))) 
































def calcEK(oS，kK): 
fxk = float(multiply(oS.alphas,oS.1labelMat).T*(oS.X*oS.X[k,:].T)) + oS.b 
Ek = fxk - float(oS.labelMat[k]) 
return Ek 


def selectJ(i, oS, Ei): 
# 人 @ ”内 循环 中 的 启发 式 方法 
maxK = -1; maxDeltaE = 0; Ej = 0 
oS.eCache[i] = [1,Ei] 
validEcacheList = nonzero(oS.eCache[:,0].A)[9O] 
if (len(validEcacheList)) > 1: 
for k in validEcacheList: 
if k == i: continue 
Ek = calcEk(oS, k) 
deltaE = abs(Ei - Ek) 
#@〈 以 下 两 行 ) 选择 具 有 最 大 步 长 的 j 
if (deltaE > maxDeltaE): 
maxK = k; maxDeltaE = deltaE; Ej = Ek 
return maxKk, Ej 
else: 
j] = selectJrand(i, oS.m) 
Ej = calcEk(oS, j) 
return j, Ej 









































def updateEk(oS, k): 
Ek = calcEk(oS, k) 
oS.eCache[k] = [1,EKk] 











首要 的 事情 束 是 建立 一 个 数据 结构 来 保存 所 有 的 重要 值 ， 而 这 个 过 程 可 
以 通过 一 个 对 象 来 完成 。 这 里 使 用 对 象 的 目的 并 不 是 为 了 面 同 对 象 的 编 
程 ， 而 只 是 作为 一 个 数据 结构 来 使 用 对 象 。 在 将 值 传 给 函数 时 ， 我 们 可 
以 通过 将 所 有 数据 移 到 一 个 结构 中 来 实现 ， 这 样 就 可 以 省 挥手 工 输 入 的 
麻烦 了 。 而 此 时 ， 数 据 就 可 以 通过 一 个 对 象 来 进行 传递 。 实 际 上 ， 当 完 
成 其 实现 时 ， 可 以 很 容易 通过 Python 的 字典 来 完成 。 但 是 在 访问 对 象 成 
员 变 量 时 ， 这 样 做 会 有 更 多 的 手工 输入 操作 ， 对 比 一 下 myobject .x 和 
my0bject['X'] 就 可 以 知道 这 一 点 。 为 达到 这 个 目的 ， 需 要 构建 一 个 仪 
包含 init 方 法 的 optstruct 类 。 该 方法 可 以 实现 其 成 员 变 量 的 填充 。 除 
了 增加 了 一 个 mx2 的 矩阵 成 员 变 量 ecache 之 外 @， 这 些 做 法 和 简化 版 
SMO 一 模 一 样 。ecache 的 第 一 列 给 出 的 是 ecache 是 否 有 效 的 标志 位 ， 而 
第 二 列 给 出 的 是 实际 的 E 值 。 


对 于 给 定 的 alpha 值 ， 第 一 个 辅助 函数 calcEk() 能 够 计算 E 值 并 返回 。 以 
前 ， 该 过 程 是 采用 内 购 的 方式 来 完成 的 ， 但 是 由 于 该 过 程 在 这 个 版 本 的 
SMO 算 法 中 出 现 频 或 ， 这 里 必须 要 将 其 单独 擒 出 来 。 


下 一 个 函数 selectJ() 用 于 选择 第 二 个 alpha 或 者 说 内 循环 的 alpha 值 驴 。 
回想 一 下 ， 这 里 的 目标 是 选择 合适 的 第 二 个 alpha 值 以 保证 在 每 次 优化 中 














采用 最 大 步 长 。 该 函数 的 误差 值 与 第 一 个 alpha 值 Ei 和 下 标 i 有 关 。 首 先 
将 输入 值 Ei 在 缓存 中 设置 成 为 有 效 的 。 这 里 的 有 效 (valid) 意味 着 它 已 
经 计算 好 了 。 在 ecache 中 ， 代码 nonzero(os,.ecache[: ,9].A)[9] 构 建 出 
下 NumPy 函 数 nonzero() 返 回 了 一 个 列表 ， 而 这 个 列表 中 
包含 以 输入 列表 为 目录 的 列表 值 ， 当 然 读 者 可 以 猜 得 到 ， 这 里 的 值 并 非 
零 。 nonzero() 语 名 返回 的 是 非 零 E 值 所 对 应 的 alpha 值 ， 而 不 是 E 值 本 
号 。 程 序 会 在 所 有 的 值 上 进行 循环 并 选择 其 中 使 得 改变 最 大 的 那个 值 
例 。 如 果 这 是 第 一 次 循环 的 话 ， 那 么 就 随机 选择 一 个 alpha 值 。 当 然 ， 也 
存在 有 许多 更 复杂 的 方式 来 处 理 第 一 次 循环 的 情况 ， 而 上 述 做 法 就 能 够 
满足 我 们 的 目的 。 


程序 清单 6-3 的 最 后 一 个 辅助 函数 是 updateEk()， 它 会 计算 误差 值 并 存 入 
绥 存 当中 。 在 对 alpha 值 进行 优化 之 后 会 用 到 这 个 值 。 


程序 清单 6-3 中 的 代码 本 身 的 作用 并 不 大 ， 但 是 当 和 优化 过 程 及 外 循环 
组 合 在 一 起 时 ， 就 能 组 成 强大 的 SMO 算 法 。 

接 下 来 将 简单 介绍 一 下 用 于 寻找 决策 边界 的 优化 例 程 。 打 开 文 本 编辑 

I 在 前 面 ， 读 者 已 经 看 到 过 下 列 代码 的 另外 
一 种 形式 。 


程序 清单 6-4 完整 Platt SMO 算 法 中 的 优化 例 程 


def innerL(i, oS): 
Ei = calcEk(oS, 1i) 














if ((oS.labelMat[i]*Ei < - 
oOS.tol) and (oS.alphas[i] < oS,C)) or((oS.labelMat[i]*Ei > oS,tol) and (oS.alphas 
#@ ”第 二 个 alpha 选 择 中 的 启发 式 方法 
j,Ej = selectJ(i, oS, Ei) 








alphaIold = oS.alphas[i].copy(); alphaJold = oS.alphas[j].copy(); 
If (oS.labelMat[i] != oS.labelMat[j]): 
L = max(0, oS.alphas[j] - oS.alphas[i]) 
H = min(oS.C, oS.C + oS.alphas[j] - oS.alphas[i]) 
else: 
L = max(0, oS.alphas[j] + oS.alphas[i] - oS.c) 
H = min(oS.C, oS.alphas[j] + oS.alphas[i]) 
if L==H: print "L==H"; return 0 
eta = 2.0 * oS.X[i,:]*oS.X[j,:].T - oS.Xx[i,:]*oS.X[i,:].T - oS.X[j,:]*oS.); 
if eta >= 0: print "eta>=0"; return 0 
oS.alphas[j] -= oS.labelMat[j]*(Ei - Ej)/eta 
oS.alphas[j] = clipAlpha(oS.alphas[j],H,L) 
#@ ”更 新 错误 差 值 缓存 
updateEk(oS, j) 
if (abs(oS.alphas[j] - alphaJold) < 0.00001): 
print "j not moving enough"; return 0 
oS.alphas[i] += oS.labelMat[j]*oS.labelMat[i]*(alphaJold - oS.alphas[j]) 


#@@ ”更 新 错误 差 值 缓存 




















updateEk(oS, i) 


bi = oS.b - Ei- oS.labelMat[i]*(oS.alphas[i]- 
alphaIold)*oS.xXx[i,:]*oS.X[i,:].T - oS.labelMat[j]*(oS.alphas[j]- 
alphaJold)*oS.xXx[i,:]*oS.X[j,:].T 
b2 = oS.b - Ej- oS.labelMat[i]*(oS.alphas[i]- 
alphaIold)*oS.xXx[i,:]*oS.X[j,:].T oS.labelMat[j]* (oS.alphas[j]- 
alphaJold)*oS.Xx[j,:]*oS.X[j,:].T 


If (0 < oS.alphas[i]) and (oS.C > oS.alphas[i]): oS.b = bi 
elif (0 < oS.alphas[j]) and (oS.C > oS.alphas[j]): oS.b = b2 
else: oS.b = (bl1 + b2)/2.0 
return 1 

else: return 0 


程序 清单 6-4 中 的 代码 几乎 和 程序 清单 6-2 中 给 出 的 smosimple() 函 数 一 模 
一 样 ， 但 是 这 里 的 代码 已 经 使 用 了 目 己 的 数据 结构 。 该 结构 在 参数 os 中 
传递 。 第 二 个 重要 的 修改 就 是 使 用 程序 清单 6-3 中 的 selectJ() 而 不 

是 selectJrand( ) 来 选择 第 二 个 alpha 的 值 @。 最 后 ， 在 alpha 值 改变 时 更 
新 Ecache 信 @。 程 序 清单 6-5 将 给 出 把 上 述 过 程 打包 在 一 起 的 代码 片段 。 
这 就 是 选择 第 一 个 alpha 值 的 外 循环 。 打 开 文 本 编辑 器 将 下 列 代 码 加 入 
到 svmMLiA， py 文件 中 o 





程序 清单 6-5 ”完整 版 Platt SMO 的 外 循环 代码 


def smoPp(dataMatIn, classLabels, C, toler, maxIter, kTup=('l1in', 0)): 
oS = optStruct(mat(dataMatIn),mat(classLabels).transpose(),c,toler) 
iter = 0 
entireSet = True; alphaPairsChanged = 0 
while (iter < maxIter) and ((alphaPairsChanged > 0) or (entireSet)): 
alphaPairsChanged = 0 
#@ 遍历 所 有 的 值 
If entireSet: 
for i in range(oS.m): 
alphaPairsChanged += innerL(i,oSs) 
print "fullSet, iter: %d i:%d, pairs changed %d" % 
(iter,i,alphapairscChanged) 
iter += 1 
# 人 @ ”遍历 非 边 界 值 
else: 
nonBoundIs = nonzero((oS.alphas.A > 0) * (oS.alphas.A < CcC))[0] 
for i in nonBoundIs: 
alphaPairsChanged += innerL(i,oSs) 














print "non- 
bound, iter: %d i:%d, pairs changed %d" % (iter,i,alphapairscChanged) 
iter += 1 
If entireSet: entireSet = False 
elif (alphaPairsChanged == 0): entireSet = True 
print "iteration number: %d" % iter 
return oS.b,oSs.alphas 


程序 清单 6-5 给 出 的 是 完整 版 的 Platt SMO 算 法 ， 其 输入 和 邓 


数 smosimple() 完 全 一 样 。 函 数 一 开 始 构建 一 个 数据 结构 来 容纳 所 有 的 
数据 ， 然 后 需要 对 控制 函数 退出 的 一 些 变量 进行 初始 化 。 整 个 代码 的 主 
体 是 while 循 环 ， 这 与 smosimple() 有 些 类 似 ， 但 是 这 里 的 循环 退出 条 件 
更 多 一 些 。 当 迭代 次 数 超过 指定 的 最 大 值 ， 或 者 轴 历 整个 集合 都 未 对 任 
意 alpha 对 进行 修改 时 ， 就 退出 循环 。 这 里 的 maxIter 变 量 和 函 

数 smosimple() 中 的 作用 有 一 点 不 同 ， 后 者 当 没 有 任何 alpha 发 生 改变 时 
会 将 整个 集合 的 一 次 授 历 过 程 计 成 一 次 迭代 ， 而 这 里 的 一 次 迭代 定义 为 
一 次 循环 过 程 ， 而 不 管 该 循环 具体 做 了 什么 事 。 此 时 ， 如 果 在 优化 过 程 
人 因此 这 里 的 做 法 优 于 smosimple() 函 数 中 的 计数 
a 


while 循 环 的 内 部 与 smosimple() 中 有 所 不 同 ， 一 开始 的 for 循 环 在 数据 集 
上 遍历 任意 可 能 的 alpha@。 我 们 通过 调用 innerL() 来 选择 第 二 个 alpha， 
并 在 可 能 时 对 其 进行 优化 处 理 。 如 果 有 任意 一 对 alpha 值 发 生 改变 ， 那 么 
人 人 也 就 是 不 在 边界 0 
或 c 上 的 


接 下 来 ， 我 们 对 for 循 环 在 非 边 界 循环 和 完整 届 历 之 间 进 行 切换 ， 并 打 
印 出 途 代 次 数 。 最 后 程序 将 会 返回 第 数 bp 和 alpha 值 。 


为 观察 上 述 执行 效果 ， 在 Python 提示 符 下 输入 如 下 命令 : 


>>> dataArr, labelArr = SvmMLiIiA,JoadDataSet( 'testSet ,txt ') 

>>> balphas = svmMLiA.smoP(dataArr, labelArr, 0.6, 0.001, 40) 
non-bound, iter: 2 i:54, pairs changed 0 

non-bound, iter: 2 i:55, pairs changed 0 

iteration number: 3 

fullsSet, iter: 3 i:0, pairs changed 0 

fullsSet, iter: 3 i:1, pairs changed 0 

fullsSet, iter: 3 i:2, pairs changed 0 





类 似 地 ， 读 者 也 可 以 检查 b 和 多 个 alpha 的 值 。 那 么 ， 相 对 于 简化 版 SMO 
算法 ， 上 述 方法 是 否 更 快 ? 基于 前 面 给 出 的 设置 在 我 自己 简陋 的 笔记 本 
上 运行 10 次 算法 ， 然 后 求 平均 值 ， 最 后 得 到 的 结果 是 0.78 秒 。 而 在 同样 
的 数据 集 上 ，smosimple() 函 数 平均 需要 14.5 秒 。 在 更 大 规模 的 数据 集 上 
结果 可 能 更 好 ， 另 外 也 存在 很 多 方法 可 以 进一步 提升 其 运行 速度 。 


如 果 修 改 容错 值 结果 会 怎样 ? 如 有 果 改 变 c 的 值 义 如 何 呢 ? 在 6.2 节 末尾 曾 
经 粗略 地 提 到 ， 第 数 c 给 出 的 是 不 同 优化 问题 的 权重 。 常 数 c 一 方面 要 保 
障 所 有 样 例 的 间隔 不 小 于 1.0， 另 一 方面 又 要 使 得 分 类 间隔 要 尽 可 能 





























大 ， 并 且 要 在 这 两 方面 之 间 平 衡 。 如 果 c 很 大 ， 那 么 分 类 右 将 力图 通过 
2 这 种 优化 的 运行 结果 如 图 6-5 所 
与 图 6-4 相 比 ， 会 发 现 图 6-5 中 的 文 持 同 量 更 多 。 如 果 回 想 一 下 ， 就 
会 记得 图 6 4 实际 来 自 于 简化 版 算法 ， 该 算法 是 通过 随机 的 方式 选择 
alpha 对 的 。 这 种 简单 的 方式 也 可 以 工作 ， 但 是 效果 却 不 如 完整 版 本 好 ， 
后 者 覆盖 了 整个 数据 集 。 读 者 可 能 还 认为 选 出 的 支持 向 量 应 该 始终 最 接 
近 分 隔 超 平面 。 给 定 c 的 设置 ， 图 中 画 圈 的 文 持 癌 量 就 给 出 了 满足 算法 
的 一 种 解 。 如 果 数 据 集 非 线性 可 分 ， 就 会 发 现 支 持 问 量 会 在 超 平面 附近 

















国 圈 表示 的 是 支持 问 量 





图 6-5 ”在 数据 集 上 运行 完整 版 SMO 算 法 之 后 得 到 的 支持 向 量 ， 其 结果 
与 图 6-4 稍 有 不 同 


读者 可 能 会 想 ， 刚才 我 们 论 了 大 量 时 间 来 计 径 那些 alpha 值 ， 但 是 如 何 利 
用 它们 进行 分 类 呢 ? 这 不 成 问题 ， 首 先 必 须 基于 alpha 值 得 到 超 平面 ， 这 
也 包括 了 w 的 计算 。 下 面 列 出 的 一 个 小 函 数 可 以 用 于 实现 上 述 任务 : 





def calcws(alphas, dataArr,classLabels): 
X = mat(dataArr); labelMat = mat(classLabels).transpose() 
m,n = Shape(X) 
w = zeros((n,1)) 
for i in range(m): 
w += multiply(alphas[i]*labelMat[i],X[i,:].T) 
return w 


上 述 代 码 中 最 重要 的 部 分 是 for 循 环 ， 虽 然 在 循环 中 实现 的 仅仅 是 多 个 
数 的 乘积 。 看 一 下 前 面 计算 出 的 任何 一 个 alpha， 就 不 会 筷 记 大 部 分 
alpha 值 为 0。 而 非 堆 alpha 所 对 应 的 也 就 是 文 持 回 量 。 虽 然 上 述 for 循 环 
训 历 了 数据 集中 的 所 有 数据 但 古 最 终 起 作用 的 只 有 文 持 向 量 。 由 于 对 
w 计 算 嗓 无 作用 ， 所 以 数据 集 的 其 他 数据 点 也 束 会 很 容易 地 被 舍 莽 。 


为 了 使 用 前 面 给 出 的 函数 ， 输 入 如 下 命令 : 











>>> ws=svmMLiA.calcws(alphas, dataArr, labelArr) 
>>> ws 
array([[ 0.65307162], 

[-0.17196128]]) 


现在 对 数据 进行 分 类 人 处理， 比如 对 说 第 一 个 数据 点 分 类 ， 可 以 这 样 输 
入 : 


>>> datMat=mat (dataArr) 
>>> datMat [0]*mat (ws)+b 
matrix([[-0.92555695]]) 


如 果 该 值 大 于 0， 那 么 其 属于 1 类 ;如果 该 值 小 于 0， 那 么 则 属于 -1 类 。 
对 于 数据 点 0， 应 该 得 到 的 类 别 标签 是 -1， 可 以 通过 如 下 的 命令 来 确认 
分 类 结果 的 正确 性 : 


>>> labelArr[0] 


还 可 以 继续 检查 其 他 数据 分 类 结果 的 正确 性 : 


>>> datMat[2]*mat(ws)+b 
matrix([[ 2.30436336]]) 
>>> labelArr[2] 

1.0 

>>> datMat[1]*mat(ws)+b 
matrix([[-1.36706674]]) 
>>> labelArr[1] 

-1.0 


读者 可 将 该 结果 与 图 6-5 进 行 比较 以 确认 其 有 效 性 。 


我 们 现在 可 以 成 功 训 练 出 分 类 器 了， 我 想 指 出 的 就 是 ， 这 里 两 个 类 中 的 
数据 点 分 布 在 一 条 直线 的 两 边 。 看 一 下 图 6-1， 大 概 就 可 以 得 到 两 类 的 
分 隔 线 形状 。 但 是 ， 倘 硅 两 类 数据 点 分 别 分 布 在 一 个 加 的 内 部 和 外 部 ， 
那么 会 得 到 什么 样 的 分 类 面 昵 ?下 一 市 将 会 介绍 一 种 方法 对 分 类 器 进行 
修改 ， 以 说 明 类 别 区 域 形 状 不 同情 况 下 的 数据 集 分 阳 问 题 。 


6.5 ”在 复杂 数据 上 应 用 核 函 数 


考虑 图 6-6 给 出 的 数据 ， 这 有 点 像 图 6-1 的 方 框 C 中 的 数据 。 前 面 我 们 用 

这 类 数据 来 描述 非 线 性 可 分 的 情况 。 显 而 易 见 ， 在 该 数据 中 存在 某 种 可 
以 识别 的 模式 。 其 中 一 个 问题 就 是 ， 我 们 能 个 像 线性 情况 一 样 ， 利 用 强 
大 的 工具 来 捕捉 数据 中 的 这 种 模式 ? 显然， 答案 是 肯定 的 。 接 下 来 ， 我 
们 就 要 使 用 一 种 条 尔 为 核 函数 kemel) 的 工具 将 数据 转换 成 易于 分 让 类 器 
理解 的 形式 。 本 市 首先 解释 核 函数 的 概念 ， 并 介绍 它们 在 支持 问 量 机 中 
的 使 用 方法 。 然 后 ， 介 绍 一 种 和 彩 i MC radial Desi Fundion) 
的 最 流行 的 核 函 数 。 最 后 ， 将 该 核 函 数 应 用 于 我 们 前 面 得 到 的 分 类 器 。 











核 方 法 中 的 非 线性 可 分 数据 











图 6-6 0 a 条 直线 分 隔 ， 不 过 很 明显 ， 这 


6.5.1 利用 核 函 数 将 数据 映射 到 高 维 空间 
在 图 6-6 中 ， 数 据点 处 于 一 个 圆 中 ， 人 类 的 大 脑 能 够 意识 到 这 一 点 。 然 











而 ， 对 于 分 类 需 而 言 ， 它 只 能 识别 分 类 噩 的 结果 是 大 于 0 还 是 小 于 0。 如 
果 只 在 X 和 Y 轴 构成 的 坐标 系 中 插入 直线 进行 分 类 的 话 ， 我 们 并 不 会 得 到 
理想 的 结果 。 我 们 或 许可 以 对 圆 中 的 数据 进行 某 种 形式 的 转换 ， 从 而 得 
到 某 些 新 的 变量 来 表示 数据 。 在 这 种 表示 情况 下 ， 我 们 就 更 容易 得 到 大 
于 0 或 者 小 于 0 的 测试 结果 。 在 这 个 例子 中 ， 我 们 将 数据 从 一 个 特征 空间 
转换 到 力 一 个 特征 空间 。 在 新 空间 下 ， 我 们 可 以 很 容易 利用 已 有 的 工具 
对 数据 进行 处 理 。 数 学 家 们 喜欢 将 这 个 过 程 称 之 为 从 一 个 特征 空间 到 羽 
和 
高 维 空间 。 


这 种 从 某 个 特征 空间 到 男 一 个 特征 空间 的 映射 是 通过 核 函数 来 实现 的 。 
读者 可 以 把 核 函 数 想象 成 一 个 包装 器 (wrapper) 或 者 是 接口 
Ginterface) ， 它 能 把 数据 从 某 个 很 难处 理 的 形式 转换 成 为 另 一 个 较 容 
易 处 理 的 形式 。 如 果 上 述 特征 空间 映射 的 说 法 听 起 来 很 让 人 迷糊 的 话 ， 
那么 可 以 将 它 想象 成 为 男 外 一 种 距离 计算 的 方法 。 前 面 我 们 提 到 过 距离 
计算 的 方法 。 距 离 计 算 的 方法 有 很 多 种 ， 不 久 我 们 也 将 看 到 ， 核 函数 一 
样 具 有 多 种 类 型 。 经 过 空间 转换 之 后 ， 我 们 可 以 在 高 维 空间 中 解决 线性 
问题 ， 这 也 就 等 价 于 在 低 维 空间 中 解决 非 线 性 问题 。 


SVM 优 化 中 一 个 特别 好 的 地 方 就 是 ， 所 有 的 运算 都 可 以 写成 内 积 
(inner ”product， 也 称 点 积 ) 的 形式 。 回 量 的 内 积 指 的 是 两 个 同 量 相 
乘 ， 之 后 得 到 单个 标量 或 者 数值 。 我 们 可 以 把 内 积 运 算 蔡 换 成 核 函 数 ， 
而 不 必 做 简化 处 理 。 将 内 积 人 蔡 换 成 核 函 数 的 方式 被 称 为 核 搁 巧 (kernel 
trick) 或 者 核 “ 变 电 ” (kernel substation ) 。 


核 函 数 并 不 仅仅 应 用 于 文 持 同 量 机 ， 很 多 其 他 的 机 器 学 习 算 法 也 都 用 到 
核 水 数 。 接 下 来 ， 我 们 将 要 来 介绍 一 个 流行 的 核 函 数 ， 那 就 是 径 问 基 核 
函数 。 

6.5.2 ” 径 问 基 核 函数 

径 问 基 函 数 是 SVM 中 常用 的 一 个 核 函 数 。 径 问 基 范 数 是 一 个 采用 问 量 作 
为 自 变 量 的 函数 ， 能 够 基于 向 量 距离 运算 输出 一 个 标量 。 这 个 距离 可 以 
是 从 <0,0> 回 量 或 者 其 他 回 量 开始 计算 的 距离 。 接 下 来 ， 我 们 将 会 使 用 
到 径 回 基 函 数 的 高 斯 版 本 ， 其 具体 公式 为 : 
































k(x,y) = re | 





其 中 ，o 是 用 户 定义 的 用 于 确定 到 达 率 (reach) ”或 者 说 函数 值 跌落 到 0 
的 速度 参数 。 


上 述 高 斯 核 函数 将 数据 从 其 特征 空间 映射 到 更 高 维 的 空间 ， 具 体 来 说 这 
里 是 映射 到 一 个 无 穷 维 的 空间 。 关 于 无 穷 维 空间 ， 读 者 目前 不 需要 太 担 
心 。 高 斯 核 函 数 只 是 一 个 常用 的 核 函 数 ， 使 用 者 并 不 需要 确切 地 理解 数 
据 到 后 是 如 何 表 现 的 ， 而 且 使 用 高 斯 核 函数 还 会 得 到 一 个 理想 的 结果 。 
在 上 面 的 例子 中 ， 数 据 扣 基本 上 都 在 一 个 加 内 。 对 于 这 个 例子 ， 我 们 可 
以 直接 检查 原始 数据 ， 并 意识 到 只 要 度量 数据 点 到 圆心 的 距离 即 可 。 然 
而 ， 如 果 碰 到 了 一 个 不 是 这 种 形式 的 新 数据 集 ， 那 么 我 们 就 会 陷入 困 

境 。 在 该 数据 集 上 ， 使 用 高 斯 核 函 数 可 以 得 到 很 好 的 结果 。 当 然 ， 该 函 
数 也 可 以 用 于 许多 其 他 的 数据 集 ， 并 且 也 能 得 到 低 错误 率 的 结果 。 


如 果 在 svmMLiA.py 文 件 中 添加 一 个 函数 并 稍 做 修改 ， 那 么 我 们 惑 能 够 在 
己 有 代码 中 使 用 核 函 数 。 首 先 ， 打 开 svMLiA.py 代 码 文件 并 输入 函 




















数 kernelTrans()。 然后 ， 对 optstruct 类 进行 修改 ， 得 到 类 似 如 下 程序 
清单 6-6 的 代码 。 


程序 清单 6-6” 核 转换 函数 


def kernelTrans(X, A, kTup): 
m,n = Shape(X) 
K = mat(zeros((m,1))) 
if kTup[0]=='lin': K=X* AT 
elif kTup[0]=="'rbf": 
for j in range(m): 
deltaRow = XxX[j,:] - A 
K[j] = deltaRow*deltaRow.T 
# @ ”元素 间 的 除法 
K = exp(K /(-1*kTup[1]**2)) 
else: raise NameError('Houston We Have a Problem 
- That Kernel is not recognized') 
return K 





class optStruct: 
def _ init_ (self,dataMatIin, classLabels, C, toler, kTup): 

self.X = dataMatIn 
self.labelMat = classLabels 
self.C=C 
self.tol = toler 
self.m = shape(dataMatIn)[0] 
self.alphas = mat(zeros((self.m,1))) 


self.b = 0 
self.eCache = mat(zeros((self.m,2))) 
self.K = mat (zeros((selTf: m, self.m))) 
for i in range(self.m 
self.K[:,i] = kernelTrans(self. xX, self.Xx[i,:], kTup) 


我 建议 读者 最 好 看 一 下 optstruct 类 的 新 版 本 。 除 了 引入 了 一 个 新 变量 
kTup 之 外 ， 该 版 本 和 原来 的 optstruct 一 模 一 样 。kTup 是 一 个 包含 核 函 数 
信息 的 元 组 ， 待 会 儿 我 们 就 能 看 到 它 的 作用 了 。 在 初始 化 方法 结束 时 ， 
矩阵 K 先 被 构建 ， 然 后 再 通过 调用 函数 kernelTrans() 进 行 填充 。 全 局 的 K 
值 只 需 计 算 一 次 。 然 后 ， 当 想 要 使 用 核 函数 时 ， 就 可 以 对 它 进行 调用 。 
这 也 省 去 了 很 多 宛 余 的 计算 开销 。 


当 计 算 矩 阵 K 时 ， 该 过 程 多 次 调用 了 函数 kernelTrans()。 该 函数 有 3 个 
输入 参数 : 2 个 数值 型 变量 和 1 个 元 组 。 元 组 kTup 给 出 的 是 核 函数 的 信 
恩 。 元 组 的 第 一 个 参数 是 描述 所 用 核 函 数 类 型 的 一 个 字符 串 ， 其 他 2 个 
参数 则 都 是 核 函 数 可 能 需要 的 可 选 参 数 。 0 了 一 个 列 同 
量 ， 然 后 检查 元 组 以 确定 核 函 数 的 类 型 。 只 给 出 了 2 种 选择 ， 但 是 
依然 可 以 很 容易 地 通过 添加 elif? 名 来 扩展 到 更 多 冯 项 : 


在 线性 核 函 数 的 情况 下 ， 内 积 计算 在 “所 有 数据 集 * 和 “数据 集中 的 一 

行 ”这 两 个 输入 之 间 展 开 。 在 径 问 基 核 函数 的 情况 下 ， 在 for 循 环 中 对 于 
惩 阵 的 每 个 元 系 计 算 高 斯 函数 的 值 。 而 在 for 循 环 结束 之 后 ， 我 们 将 计 
算 过 程 应 用 到 整个 同 量 上 去 。 值 得 一 提 的 是 ， 在 NumPy 和 矩阵 中 ， 除 法 符 
a 味 着 对 和 矩阵 元 系 展 开 计 算 而 不 像 在 MATLAB 中 一 样 计算 矩阵 的 逆 





























最 后 ， 如 有 果 遇 到 一 个 无 法 识别 的 元 组 ， 程 序 就 会 抛 出 异常 ， 因 为 在 这 种 
情况 下 不 希望 程序 再 继续 运行 ， 这 一 点 相当 重要 。 


为 了 使 用 核 函 数 ， 先 期 的 两 个 函数 innerL() 和 calcEk() 的 代码 需要 做 些 
修改 。 修 改 的 结果 参见 程序 清单 6-7。 本 来 我 并 不 想 这 样 列 出 代码 ， 但 
古 重 新 列 出 函数 的 所 有 代码 需要 超过 90 行 ， 我 想 任 何人 都 不 希望 这 样 。 
读者 可 以 直接 从 下 载 的 源码 中 复制 代码 段 ， 而 不 必 对 修改 片段 进行 手工 
输入 。 下 面 列 出 的 就 是 修改 的 代码 片段 。 


ee 使 用 核 函 数 时 需要 对 innerL() 及 calcEk() 函 数 进行 的 修 





innerL( ) : 
eta = 2.0 * oS.K[i,j] - oS.K[i,i] - oS.K[j,j] 


bi = oS.b - Ei- oS.labelMat[i]*(oS.alphas[i]-alphaIold)*oS.K[i,i] -\ 
oS.labelMat[j]*(oS.alphas[j]-alphaJold)*oS.K[i,j] 

b2 = oS.b - Ej- oS.labelMat[i]*(oS.alphas[i]-alphaIold)*oS.K[i,j]-\ 
oS.labelMat[j]*(oS.alphas[j]-alphaJold)*oS.K[j,j] 


def calcEk(oS, k): 
fxk = float(multiply(oS.alphas,oSs.labelMat).T*oS.K[:,k] + oS.b) 
Ek = fxk - float(oS.1labelMat[k]) 
return Ek 


你 已 经 了 解 了 如 何在 训练 过 程 中 使 用 核 函数 ， 接 下 来 我 们 残 去 了 解 如 何 
在 测试 过 程 中 使 用 核 水 数 。 


6.5.3 ”在 测试 中 使 用 核 函 数 


捷 下 来 我 们 将 多 是 一 个 对 图 6- 6 中 的 数据 点 进行 有 效 分 类 的 分 类 器 ， 

分 类 器 使 用 了 径 癌 基 核 函数 。 前 面 提 到 的 径 癌 基 函 入 让 一 丰 证 户 定 义 的 
输入 a 首先 ， 我 们 需要 确定 它 的 大 小 ， 然 后 利用 该 核 函 数 构建 出 一 个 
分 类 器 。 整 个 测试 函数 将 如 程序 清单 6-8 所 示 。 读 者 也 可 以 打开 一 个 文 
本 编辑 器 ， 并 且 加 入 函数 testRbf() 。 


程序 清单 6-8 ”利用 核 函 数 进 行 分 类 的 径 向 基 测 试 函 数 


def testRbf(k1i=1.3): 

dataArr, labelArr = loadDataSet('testSetRBF.txt') 

b,alphas = smop(dataArr, labelArr, 200, 0.0001, 10000, ('rbf', k1)) 

datMat=mat (dataArr); labelMat = mat(labelArr).transpose() 

svIind=nonzero(alphas.A>0)[0] 

# 构 建 支 持 向 量 和 矩阵 

sVs=datMat[svInd] 

labelSV = labelMat[svInd]; 

print "there are %d Support Vectors" % shape(sVs)[0] 

m,n = shape(datMat) 

errorCount = 0 

for i in range(m): 
kernelEval = kernelTrans(sVs,datMat[i,:],('rbf', k1)) 
predict=kernelEval.T * multiply(labelSsV,alphas[svIind]) + b 
If sign(predict)!=sign(labelArr[i]): errorCount += 1 

print "the training error rate is: %f" % (float(errorCount)/m) 

dataArr, labelArr = loadDataSet('testSetRBF2.txt') 

errorCount = 0 

datMat=mat (dataArr); labelMat = mat(labelArr).transpose() 














m,n = Shape(datMat ) 

for i in range(m): 
kernelEval = kernelTrans(sVs,datMat[i,:],('rbf', k1)) 
predict=kernelEval.T * multiply(labelSsV,alphas[svIind]) + b 
If sign(predict)!=sign(labelArr[i]): errorCount += 1 

print "the test error rate is: %f" % (float(errorCount)/m) 


上 述 代码 只 有 一 个 可 选 的 输入 参数 ， 该 输入 参数 是 高 斯 径 向 基 玉 数 中 的 
一 个 用 户 定 义 变量 。 整 个 代码 主要 是 由 以 前 定义 的 函数 集合 构成 的 。 首 
先 ， 程序 从 文件 中 读 入 数据 集 ， 然 后 在 该 数据 集 上 运行 Platt 。” SMO 算 
法 ， 其 中 核 函 数 的 类 型 为 'rbf'。 


优化 过 程 结束 后 ， 在 后 面 的 矩阵 数学 运算 中 建立 了 数据 的 矩阵 副本 ， 并 
且 找 出 那些 非 零 的 alpha 值 ， 从 而 得 到 所 需要 的 文 持 问 量 ， 同 时 ， 也 就 得 
到 了 这 些 文 持 同 量 和 alpha 的 类 别 标签 值 。 这 些 值 仅 仅 是 需要 分 类 的 值 。 


整个 代码 中 最 重要 的 是 for 循 环 开 始 的 那 两 行 ， 它 们 给 出 了 如 何 利用 核 
函数 进行 分 类 。 首 先 利 用 结构 初始 化 方法 中 使 用 过 的 kernelTrans() 函 
数 ， 得 到 转换 后 的 数据 。 然 后 ， 再 用 其 与 前 面 的 alpha 及 类 别 标签 值 求 
积 。 其 中 需要 特别 注意 的 另 一 件 事 是 ， 在 这 几 行 代码 中 ， 是 如 何 做 到 只 
0 0 
弃 。 

与 第 一 个 for 循 环 相 比 ， 第 二 个 for 循 环 仅仅 只 有 数据 集 不 同 ， 后 者 采用 


站 是 测试 数据 集 。 读 者 可 以 比较 不同 的 设置 在 测试 集 和 训练 集 上 表现 出 


为 测试 程序 清 蛙 6-8 的 代码 ， 可 以 在 Python 提 示 符 下 输入 命令 : 


>>> reload(svmMLiA) 
<module 'svmMLiA' from 'svmMLiA.pyc'> 
>>> svmMLiA.testRbf() 









































fullsSet, iter: 11 i:497, pairs changed 0 
fullsSet, iter: 11 i:498, pairs changed 0 
fullsSet, iter: 11 i:499, pairs changed 0 
iteration number: 12 

there are 27 Support Vectors 

the training error rate is: 0.030000 

the test error rate is: 0.040000 


你 可 以 笃 试 更 换 不 同 的 ki 参数 以 观 凤 测试 错误 率 、 训 练 错误 率 、 文 持 问 


量 个 数 随 ki 的 变化 情况 。 图 6-7 给 出 了 当 ki 非 常 小 (=0.1) 时 的 结果 。 


RBF k1=0.10, 85 个 支持 向 量 
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图 6-7 在 用 户 自 定义 参数 kl = 9.1 时 的 径 向 基 函 数 。 该 参数 此 时 减少 
了 每 个 文 持 疝 量 的 影响 程度 ， 因 此 需要 更 多 的 支持 问 量 


图 6-7 中 共有 100 个 数据 点 ， 其 中 的 85 个 为 支持 向 量 。 优 化 算法 发 现 ， 必 
须 使 用 这 些 支 持 疝 量 才 能 对 数据 进行 正确 分 类 。 这 就 可 能 给 了 读者 径 问 
基 函 数 到 达 率 太 小 的 直觉 。 我 们 可 以 通过 增加 co 来 观察 错误 率 的 变化 情 
况 。 增 加 c 之 后 得 到 的 另 一 个 结果 如 图 6-8 所 示 。 




















RBF k1=1,30, 27 个 支持 向 量 
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图 6-8 ”在 用 户 自 定义 参数 k1=1.3 时 的 径 向 基 函 数 。 这 里 的 支持 问 量 个 
数 少 于 图 6-7 的 ， 而 这 些 文 持 向 量 在 决策 边界 周围 聚集 


同 图 6-7 相 比 ， 图 6-8 中 只 有 27 个 支持 向 量 ， 其 数目 少 了 很 多 。 这 时 观察 

一 下 函数 testRbf() 的 输出 结果 束 会 发 现 ， 此 时 的 测试 错误 率 也 在 下 

降 。 该 数据 集 在 这 个 设置 的 茶 处 存在 着 最 优 值 。 如 果 降低 co， 那 么 训练 

普 误 率 就 会 降低 ， 但 是 测试 错误 率 却 会 上 升 。 

支持 向 量 的 数目 存在 一 个 最 优 值 。SVM 的 优点 在 于 它 能 对 数据 进行 高 效 
分 类 。 如 果 文 持 疝 量 太 少 ， 就 可 能 会 得 到 一 个 很 又 的 决策 边界 (下 个 例 
子 会 次 明 这 一 点 ) ; 如 果 文 持 向 量 太 多 ， 也 束 相 当 于 每 次 都 利用 整个 数 
据 集 进行 分 类 ， 这 种 分 类 方法 称 为 k 近 邻 。 














我 们 可 以 对 SMO 算 法 中 的 其 他 设置 进行 随意 地 修改 或 者 建立 新 的 核 函 
数 。 接 下 来 ， 我 们 将 在 一 个 更 大 的 数据 上 应 用 支持 向 量 机 ， 并 与 以 前 介 
绍 的 一 个 分 类 融 进 行 对 比 。 








6.6 ”示例 : 手写 识别 问题 回顾 


考虑 这 样 一 个 假想 的 场景 。 你 的 老板 过 来 对 你 说 :“ 你 写 的 那个 手写 体 
识别 程序 非常 好 ， 但 是 它 占 用 的 内 存 太 大 了 。 顾 客 不 能 通过 无 线 的 方式 
下 载 我 们 的 应 用 (在 写本 书 时 ， 无 线 下 载 的 限制 容量 为 10MB， 可 以 肯 
定 ， 这 将 来 会 成 为 笑料 的 。) 我 们 必须 在 保持 其 性 能 不 变 的 同时 ， 使 用 
更 少 的 内 存 。 我 呢 ， 告 诉 了 CEO， 你 会 在 一 周 内 准备 好 ， 但 你 到 抵 还 得 
多 长 时 间 才 能 搞定 这 件 事 ? ”我 不 确定 你 到 抵 会 如 何 回答 ， 但 是 如 果 想 
要 满足 他 们 的 需求 ， 你 可 以 考虑 使 用 支持 向 量 机 。 尺 管 第 2 革 所 使 用 的 
KNN 方 法 效果 不 错 ， 但 是 需要 保留 所 有 的 训练 样本 。 而 对 于 文 持 问 量 机 
而 言 ， 其 需要 保留 的 样本 少 了 很 多 《〈 即 只 保留 支持 向 量 ) ， 但 是 能 获得 
可 比 的 效果 。 


示例 : 基于 SVM 的 数字 识别 














. 收集 数据 : 提供 的 文本 文件 。 

. 准备 数据 : 基于 二 值 图 像 构 造 向 量 。 

. 分析 数 据 : 对 图 像 回 量 进行 目测 。 

. 训练 算法 : 采用 两 种 不 同 的 核 函 数 ， 并 对 径 回 基 核 函数 采用 不 同 的 
设置 来 运行 SMO 算 法 。 

5. 测试 算法 : 编写 一 个 函数 来 测试 不 同 的 核 函数 并 计算 错误 率 。 

6. 使 用 算法 : 一 个 图 像 识别 的 完整 应 用 还 需要 一 些 图 像 处 理 的 知识 ， 

这 里 并 不 打算 深入 介绍 。 


使 用 第 2 章 中 的 一 些 代 码 和 和 SMO 算法， 可 以 构建 一 个 系统 去 测试 手写 数 
字 上 的 分 类 器 。 打 开 svmMLiA.py 并 将 第 2 章 中 knn.py 中 的 img2vector() 函 
数 复 制 过 来 。 然 后 ， 加 入 程序 清单 6-9 中 的 代码 。 


程序 清单 6-9 基于 SVM 的 手写 数字 识别 


def loadImages(dirName ) : 

from os import listdir 

hwLabels = [] 

trainingFileList = listdir(dirName) 

m = len(trainingFileList) 

trainingMat = zeros((m,1024)) 

for i in range(m): 
fileNameStr = trainingFileList[i] 
filestr = fileNameStr.split('.')[90] 


全 局 计 一 














classNumStr = int(fileStr.split('_')[0]) 
If classNumStr == 9: hwLabels.append(-1) 
else: hwLabels.append(1) 
trainingMat[i,:] = img2vector('%s/%s' % (dirName, fileNameStr)) 
return trainingMat, hwLabels 
def testDigits(kTup=('rbf', 10)): 
dataArr,1labelArr = loadIimages('trainingDigits') 
b,alphas = smop(dataArr, labelArr, 200, 0.0001, 10000, kTup) 
datMat=mat (dataArr); labelMat = mat(labelArr).transpose() 
svIind=nonzero(alphas.A>0)[0] 
sVs=datMat[svInd] 
labelSV = labelMat[svInd]; 
print "there are %d Support Vectors" % shape(sVs)[0] 
m,n = shape(datMat) 
errorCount = 0 
for i in range(m): 
kernelEval = kernelTrans(sVs,datMat[i,:],KkTup) 
predict=kernelEval.T * multiply(labelSsV,alphas[svIind]) + b 
If sign(predict)!=sign(labelArr[i]): errorCount += 1 
print "the training error rate is: %f" % (float(errorCount)/m) 
dataArr,1labelArr = loadIimages('testDigits') 
errorCount = 0 
datMat=mat (dataArr); labelMat = mat(labelArr).transpose() 
m,n = shape(datMat) 
for i in range(m): 
kernelEval = kernelTrans(sVs,datMat[i,:],KkTup) 
predict=kernelEval.T * multiply(labelSsV,alphas[svIind]) + b 
If sign(predict)!=sign(labelArr[i]): errorCount += 1 
print "the test error rate is: %f" % (float(errorCount)/m) 


函数 loadImages() 是 作为 前 面 kXNN.py 中 的 handwritingclassTest() 的 一 
部 分 出 现 的 。 它 已 经 被 重 构 为 自 号 的 一 个 函数 。 其 中 仅 有 的 一 个 大 区 别 
在 于 ， 在 kKNN.py 中 代码 直接 应 用 类 别 标签 ， 而 同文 持 癌 量 机 一 起 使 用 

时 ， 类 别 标签 为 -1 或 者 +1。 因 此 ， 一 旦 碰 到 数字 9， 则 输出 类 别 标 

丛 -1， 人 否则 输出 +1。 本 质 上 ， 文 持 同 量 机 是 一 个 二 类 分 类 器 ， 其 分 类 结 
果 不 是 +1 束 是 -1。 基 于 SVM 构建 多 类 分 类 器 已 有 很 多 研究 和 对 比 了 ， 如 
果 读 者 感 兴趣 ， 建 议 阅读 C. W. Huset 等 人 发 表 的 一 篇 论文 <A 
Comparison of Methods for Multiclass Support Vector Machines”。 由 于 这 
里 我 们 只 做 二 类 分 类 ， 因 此 除了 1 和 9 之 外 的 数字 都 被 去 掉 了 。 


1.C. W. Hus, and C.J. Lin, “A Comparison of Methods for Multiclass Support Vector Machines,” IEEE Transactions on Neural Networks 13, no. 2 (March 2002), 415-25. 


下 一 个 函数 testpigits() 并 不 是 全 新 的 函数 ， 它 和 testRbf() 的 代码 几 平 
一 样 ， 唯 一 的 大 区 别 就 是 它 调用 了 1loadImages( ) 函 数 来 获得 类 别 标签 和 
数据 。 男 一 个 细小 的 不 同 是 现在 这 里 的 函数 元 组 kTup 是 输入 参数 ， 而 

在 testRbf() 中 默认 的 就 是 使 用 rbf 核 函数 。 如 果 对 于 函数 testDigits() 

不 增加 任何 输入 参数 的 话 ， 那 么 kTup 的 默认 值 就 是 (rbf' ,10)。 

















条 入 程序 消音 6-9 中 的 代码 之 后 ， 将 之 保存 为 svmMLiA.py 并 输入 如 下 命 
让 


>>> svmMLiA.testDigits(('rbf', 20)) 


L==H 

fullSet, iter: 3 i:401, pairs changed 0 
iteration number: 4 

there are 43 Support Vectors 

the training error rate is: 0.017413 
the test error rate is: 0.032258 


我 尝试 了 不 同 的 o 值 ， 并 尝试 了 线性 核 函数 ， 总 结 得 到 的 结 琳 如 表 6-1 所 
外。 


表 6-1 不 同 o 值 的 手写 数字 识别 性 能 


内 核 ， 设 置 ”训练 错误 率 (%) ”测试 错误 率 (%) ”支持 向 量 数 


RBF, 0.1 0 52 402 
RBF, 5 0 3.2 402 
RBF, 10 0 0.5 99 
RBF, 50 0.2 2.2 41 

RBF, 100 4.5 4.3 26 


Linear 2.7 2.2 38 


表 6-1 给 出 的 结果 表明 ， 妆 径 同 基 核 函数 中 的 参数 o 取 10 左 右 时 ， 束 可 以 
得 到 最 小 的 测试 错误 率 。 该 参数 值 比 前 面 例子 中 的 取 值 大 得 多 ， 而 前 面 
的 测试 错误 率 在 1.3 左 右 。 为 什么 差距 如 此 之 大 ?原因 天 在 于 数据 的 不 
同 。 在 手写 识别 的 数据 中 ， 有 1024 个 特征 ， 而 这 些 特征 的 值 有 可 能 高 ; 
1.0。 而 在 6.5 节 的 例子 中 ， 所 有 数据 从 -1 到 1 变化 ， 但 是 只 有 2 个 特征 。 

如 何 才 能 知道 该 怎么 设置 呢 ? 说 老实 话 ， 在 写 这 个 例子 时 我 也 不 知道 。 
我 只 是 对 不 同 的 设置 进行 了 多 次 答 试 。c 的 设置 也 会 影响 到 分 类 的 续 
果 。 当 然 ， 存 在 另外 的 SVM 形式 ， 它 们 把 c 同 时 考虑 到 了 优化 过 程 中 ， 
例如 v-SYVM。 有 关 v-SVM 的 一 个 较 好 的 讨论 可 以 参考 本 书 第 3 章 介 绍 过 
的 Sergios Theodoridis 和 Konstantinos Koutroumbas 撰 写 的 Pattern 
Recognition’。 











2 .Sergios Theodoridis and Konstantinos Koutroumbas, Pattern Recognition, 4th ed. (Academic Press, 2009), 133. 


你 可 能 注意 到 了 一 个 有 趣 的 现象 ， 即 最 小 的 训练 错误 率 并 不 对 应 于 最 小 
的 文 持 回 量 数目 。 另 一 个 值得 注意 的 就 是 ， 线 性 核 函 数 的 效 打 并 不 是 特 
别 的 糟糕 。 可 以 以 牺牲 线性 核 函 数 的 错误 率 来 换取 分 类 速度 的 提高 。 尽 
管 这 一 点 在 实际 中 是 可 以 接受 的 ， 但 是 还 得 取决 于 具体 的 应 用 。 























6.7 ”本章 小 结 


文 持 问 量 机 是 一 种 分 类 需 。 之 所 以 称 为 "机 ?是 因为 它 会 产生 一 个 二 值 决 
全 结果 ， 即 它 是 一 种 决策 “机 ”。 文 持 问 量 机 的 泛 化 错误 率 较 低 ， 也 束 是 
说 它 具 有 展 好 的 学 习 能 力 ， 且 学 到 的 结果 具有 很 好 的 推广 性 。 这 些 优点 
人 
es 


支持 癌 量 机 试图 通过 求解 一 个 二 次 优化 问题 来 最 大 化 分 类 间隔 。 在 过 
去 ， 训 练 支持 向 量 机 第 采用 非常 复 保 并 且 低 效 的 二 次 规划 求解 方法 。 
John Platt 引 入 了 SMO 算 法 ， 此 算法 可 以 通过 每 次 只 优化 2 个 alpha 值 来 加 
快 5VM 的 训练 速度 。 本 章 首先 讨论 了 一 个 简化 版 本 所 实现 的 SMO 优 化 
过 程 ， 接 着 给 出 了 完整 的 Platt ”SMO 算法 。 相 对 于 简化 版 而 言 ， 完 整 版 
算法 不 仅 大 大 地 提高 了 优化 的 速度 ， 还 使 其 存在 一 些 进一步 提高 运行 速 
度 的 空间 。 有 关 这 方面 的 工作 ， 一 个 经 常 被 引用 的 参考 文献 就 

是 “Improvements to Platts SMO Algorithm for SVM Classifier Design”'。 


























1. S. S. Keerthi, S. K. Shevade, C. Bhattacharyya, and K. R. K. Murthy, “Improvements to Platts SMO Algorithm for SVM Classifier Design,”Neural Computation 13, no. 3,( 2001), 637-49. 


核 方 法 或 者 说 核 技巧 会 将 数据 《有 时 是 非 线性 数据 ) 从 一 个 低 维 空间 映 
冉 到 一 个 高 维 空间 ， 可 以 将 一 个 在 低 维 空间 中 的 非 线 性 问题 转换 成 蜗 维 
空间 下 的 线性 问题 来 求解 。 核 方法 不 止 在 SVM 中 适用 ， 还 可 以 用 于 其 他 
0 


支持 向量 机 是 一 个 二 类 分 类 右 。 当 用 其 解决 多 类 问题 时 ， 则 需要 额外 的 
方法 对 其 进行 扩展 。SVM 的 效 采 也 对 优化 参数 和 所 用 核 函 数 中 的 参数 敏 


Yo 


下 一 章 将 通过 介绍 一 个 称 为 boosting 的 方法 来 结束 我 们 有 关 分 类 的 介 
绍 。 读 者 不 久 就 会 看 到 ， 在 boosting 和 SVM 之 间 存 在 着 许多 相似 之 处 。 











第 7 章 ”利用 AdaBoost 元 算法 提高 分 
类 性 能 
本 章 内 容 


组 合 相似 的 分 类 器 来 提高 分 类 性 能 
应 用 AdaBoost 算 法 
处 理 非 均衡 分 类 问题 


当做 重要 决定 时 ， 大 家 可 能 都 会 考虑 吸取 多 个 专家 而 不 只 是 一 个 人 的 意 
见 。 机 器 学 习 处 理 问 题 时 又 何尝 不 是 如 此 ? 这 就 是 元 算法 (meta- 
algorithm ) 背后 的 思路 。 元 算法 是 对 其 他 算法 进行 组 合 的 一 种 方式 。 接 
下 来 我 们 将 集中 关注 一 个 称 作 AdaBoost 的 最 流行 的 元 算法 。 由 于 某 些 人 
认为 AdaBoost 是 最 好 的 监督 学 习 的 方法 ， 所 以 该 方法 是 机 器 学 习 工 具 箱 
中 最 强 有 力 的 工具 之 一 。 


本 章 首 先 讨论 不 同 分 类 器 的 集成 方法 ， 然 后 主要 关注 boosting 方 法 及 其 
代表 分 类 器 Adaboost。 再 接 下 来 ， 我 们 就 会 建立 一 个 单 层 决策 树 
(decision stump) 分 类 器 。 实 际 上 ， 它 是 一 个 单 节点 的 决策 树 。 
AdaBoost 算 法 将 应 用 在 上 述 单 层 决策 树 分 类 器 之 上 。 我 们 将 在 一 个 难 数 
以 了 解 该 算法 是 如 何 迅速 超越 其 他 分 类 器 
ae 


最 后 ， 在 结束 分 类 话题 之 前 ， 我 们 将 讨论 所 有 分 类 器 部 会 过 到 的 一 个 通 
用 问题 : 非 均衡 分 类 问题 。 当 我 们 试图 对 样 例 数目 不 均衡 的 数据 进行 分 
类 时 ， 融 会 遇 到 这 个 问题 。 信 用 卡 使 用 中 的 欺诈 检 训 惑 是 非 均 衡 问 题 中 
的 一 个 极 好 的 例子 ， 此 时 我 们 可 能 会 对 每 一 个 正 例 样本 都 有 1000 个 反例 
样本 。 在 这 种 情况 下， 分 类 此 将 如 何 工作 ? 读者 将 会 了 解 到 ， 可 能 需要 
利用 修改 后 的 指标 来 评价 分 类 器 的 性 能 。 而 就 这 个 问题 而 言 ， 并 非 
AdaBoost 所 独 用 ， 只 是 因为 这 是 分 类 的 最 后 一 曹 ， 因 此 到 了 讨论 这 个 问 
题 的 最 佳 时 机 。 











7.1 基于 效 据 集 多 重 抽 样 的 分 关 需 


前 面 已 经 介绍 了 五 种 不 同 的 分 类 算法 ， 它 们 各 有 优 缺 点 。 我 们 自然 可 以 
将 不 同 的 分 类 器 组 合 起 来 ， 而 这 种 组 合 结 果 则 被 称 为 集成 方法 
(ensemble ”method) 或 者 元 算法 (meta-algorithm) 。 使 用 集成 方法 时 
会 有 多 种 形式 : 可 以 是 不 同 算 法 的 集成 ， 也 可 以 是 同一 算法 在 不 同 设置 
下 的 集成 ， 还 可 以 是 数据 集 不 同 部 分 分 配给 不 同 分 类 器 之 后 的 集成 。 接 
下 来 ， 我 们 将 介绍 基于 同一 种 分 类 器 多 个 不 同 实例 的 两 种 计算 方法 。 在 
这 些 方法 当中 ， 数 据 集 也 会 不 断 变化 ， 而 后 应 用 于 不 同 的 实例 分 类 器 
上 。 最 后 ， 我 们 会 讨论 如 何 利用 机 器 学 习 问 题 的 通用 框架 来 应 用 
AdaBoost 算 法 。 








AdaBoost 
优点 : 泛 化 错误 率 低 ， 易 编码 ， 可 以 应 用 在 大 部 分 分 类 器 上 ， 无 参 
数 调 整 。 





缺点 : 对 离 群 点 敏感 。 
适用 数据 类 型 : 数值 型 和 标 称 型 数据 。 


7.1.1 bagging: 基于 数据 随机 重 抽样 的 分 类 需 构 建 方法 


自 举 汇聚 法 (bootstrap aggregating) ， 也 称 为 bagging 方 法 ， 是 在 从 原始 
数据 集 选 择 S 次 后 得 到 S 个 新 数据 集 的 一 种 技术 。 新 数据 集 和 原 数据 集 的 
大 小 相等 。 每 个 数据 集 都 是 通过 在 原始 数据 集中 随机 选择 一 个 样本 来 进 
行 蔡 换 而 得 到 的 '"。 这 里 的 蔡 换 就 意味 着 可 以 多 次 地 选择 同一 样本 。 这 一 
性 质 束 允许 新 数据 集中 可 以 有 重复 的 值 ， 而 原始 数据 集 的 某 些 值 在 新 集 
合 中 则 不 再 出 现 。 











1.， 这 里 的 意思 是 从 原始 集合 中 随机 选择 一 个 样本 ， 然 后 随机 选择 一 个 样本 来 代替 这 个 样本 。 在 其 他 书 中 ，bagging 中 的 数据 集 通 常 被 认为 是 放 回 取样 得 到 的 ， 比 如 要 得 到 一 个 大 小 
为 n 的 新 数据 集 ， 该 数据 集中 的 每 个 样本 都 是 在 原始 数据 集中 随机 抽样 〈 即 抽样 之 后 又 放 回 ) 得 到 的 。 一 一 译 者 注 


在 5 个 数据 集 建 好 之 后 ， 将 茶 个 学 习 算 法 分 别 作用 于 每 个 数据 集 就 得 到 
了 S 个 分 类 器 。 当 我 们 要 对 新 数据 进行 分 类 时 ， 就 可 以 应 用 这 S 个 分 类 噩 


J 分 类 。 与 此 同时 ， 选 择 分 类 强 投 佘 结果 中 最 多 的 类 别 作为 最 后 的 分 
结果 。 


当然 ， 还 有 一 些 更 先进 的 bagging 方 法 ， 比 如 随机 森林 (random 





























forest) 。 有 关 这 些 方法 的 一 个 很 好 的 讨论 材料 参见 网 
页 http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm。 接 
下 来 我 们 将 注意 力 转 同一 个 与 bagging 类 似 的 集成 分 类 器 方法 boosting。 





7.1.2 boosting 


boosting 是 一 种 与 bagging 很 类 似 的 技术 。 不 论 是 在 boosting 还 是 bagging 
当中 ， 上 所 使 用 的 多 个 分 类 器 的 类 型 都 是 一 致 的 。 但 是 在 前 者 当中 ， 不 同 
的 分 类 器 是 通过 串 行 训练 而 获得 的 ， 每 个 新 分 类 器 都 根据 已 训练 出 的 分 
类 需 的 性 能 来 进行 训练 。boosting 是 通过 集中 关注 被 已 有 分 类 堪 错 分 的 
那些 数据 来 获得 新 的 分 类 器 。 


由 于 boosting 分 类 的 结果 是 基于 所 有 分 类 器 的 加 权 求 和 结果 的 ， 因 此 
boosting 与 bagging 不 太一 样 。bagging 中 的 分 类 器 权重 是 相等 的 ， 而 
boosting 中 的 分 类 器 权重 并 不 相等 ， 每 个 权重 代表 的 是 其 对 应 分 类 器 在 
上 一 轮 欠 代 中 的 成 功 度 。 


boosting 方 法 拥有 多 个 版 本 ， 本 章 将 只 关注 其 中 一 个 最 流行 的 版 本 
AdaBoost。 














AdaBoost 的 一 般 流 程 


1. 收集 数据 : 可 以 使 用 任意 方法 。 

2. 准备 数据 : 依赖 于 所 使 用 的 弱 分 类 器 类 型 ， 本 章 使 用 的 是 单 层 决策 
树 ， 这 种 分 类 器 可 以 处 理 任何 数据 类 型 。 当 然 也 可 以 使 用 任意 分 类 
器 作为 弱 分 类 器 ， 第 2 章 到 第 6 章 中 的 任 一 分 类 器 都 可 以 充当 弱 分 类 
器 。 作 为 弱 分 类 器 ， 简 单 分 类 器 的 效果 更 好 。 

3. 分 析 数 据 : 可 以 使 用 任意 方法 。 

4. 训练 算法 : AdaBoost 的 大 部 分 时 间 都 用 在 训练 上 ， 分 类 器 将 多 次 在 
同一 数据 集 上 训练 弱 分 类 器 。 

5. 测试 算法 : 计算 分 类 的 错误 率 。 

6. 使 用 算法 : 同 SVM 一 样 ，AdaBoost 预 测 两 个 类 别 中 的 一 个 。 如 果 想 
把 它 应 用 到 多 个 类 别 的 场合 ， 那 么 就 要 像 多 类 SVM 中 的 做 法 一 样 对 
AdaBoost 进 行 修改 。 


下 面 我 们 将 要 讨论 AdaBoost 背 后 的 一 些 理论 ， 并 揭示 其 效果 不 错 的 原 
l 





7.2 ”训练 算法 : 基于 错误 提升 分 类 器 的 性 
能 


能 人 否 使 用 弱 分 类 器 和 多 个 实例 来 构建 一 个 强 分 类 器 ? 这 是 一 个 非常 有 趣 
的 理论 问题 。 这 里 的 “ 弱 ” 意 味 着 分 类 器 的 性 能 比 随 机 猜测 要 略 好 ， 但 是 
也 不 会 好 太 多 。 这 就 是 次， 在 二 分 类 情况 下 弱 分 类 器 的 错误 率 会 局 于 

50%， 而 “ 强 ” 分 类 器 的 错误 率 将 会 低 很 多 。AdaBoost 算 法 即 脱胎 于 上 述 


理论 问题 。 








AdaBoost 是 adaptive boosting〈 自 适应 boosting) 的 缩写 ， 其 运行 过 程 如 
下 : 训练 数据 中 的 每 个 样本 ， 并 赋予 其 一 个 权重 ， 这 些 权 重 构成 了 回 量 
D。 一 开始 ， 这 些 权 重 都 初始 化 成 相等 值 。 首 先 在 训练 数据 上 训练 出 一 
个 弱 分 类 器 并 计算 该 分 类 器 的 错误 率 ， 然 后 在 同一 数据 集 上 再 次 训练 弱 
分 类 器 。 在 分 类 器 的 第 二 次 训练 当中 ， 将 会 重新 调整 每 个 样本 的 权重 ， 
其 中 第 一 次 分 对 的 样本 的 权重 将 会 降低 ， 而 第 一 次 分 错 的 样本 的 权重 将 
会 提高 。 为 了 从 所 有 弱 分 类 器 中 得 到 最 终 的 分 类 结果 ，AdaBoost 为 每 个 
分 类 器 都 分 配 了 一 个 权重 值 apha， 这 些 alpha 值 是 基于 每 个 弱 分 类 器 的 
错误 率 进行 计算 的 。 其 中 ， 错 误 率 e 的 定义 为 : 

















| 所 有 样本 数目 


而 alpha 的 计算 公式 如 下 : 


= 二 | -二 | 


AdaBoost 算 法 的 流程 如 图 7-1 所 示 。 








图 7-1 AdaBoost 算 法 的 示意 图 。 左 边 是 数据 集 ， 其 中 直方 图 的 不 同 宽 
度 表 示 每 个 样 例 上 的 不 同 权 重 。 在 经 过 一 个 分 类 器 之 后 ， 加 权 的 预测 
结果 会 通过 三 角形 中 的 alpha 值 进行 加 权 。 每 个 三 角形 中 输出 的 加 权 结 
果 在 圆 形 中 求 和 ， 从 而 得 到 最 终 的 输出 结 


计算 出 alpha 值 之 后 ， 可 以 对 权重 向 量 D 进 行 更 新 ， 以 使 得 那些 正确 分 类 
的 样本 的 权重 降低 而 错 分 样本 的 权重 升 高 。D 的 计算 方法 如 下 。 


如 果 茶 个 样本 被 正确 分 类 ， 那 么 该 样本 的 权重 更 改 为 : 























. DUe® 
He 
Sum(D) 


而 如 果 茶 个 样本 被 错 分 ， 那 么 该 样本 的 权重 更 改 为 : 


(it _ De 
Sum(D) 
在 计算 出 DD 之 后 ，AdaBoost 义 开始 进入 下 一 轮 迄 代 。AdaBoost 算 法 会 不 
断 地 重复 训练 和 调整 权重 的 过 程 ， 直 到 训练 错误 率 为 0 或 者 弱 分 类 器 的 
数目 达到 用 户 的 指定 值 为 止 。 
接 下 来 ， 我 们 将 建立 完整 的 AdaBoost 算 法 。 在 这 之 前 ， 我 们 首先 必须 通 
过 一 些 代 码 来 建立 弱 分 类 器 及 保存 数据 集 的 权重 。 





7.3 ”基于 蛙 层 决 倘 树 构 建 弱 分 类 帮 


单 层 决策 树 (decision stump， 也 称 决 策 树 桩 ) 是 一 种 简单 的 诀 策 树 。 前 
面 我 们 已 经 介绍 了 决策 树 的 工作 原理 ， 接 下 来 将 构建 一 个 单 层 决策 树 ， 
而 它 仅 基 于 单个 特征 来 做 决策 。 由 于 这 棵 树 只 有 一 次 分 裂 过 程 ， 因 此 它 
实际 上 就 是 一 个 树桩 。 

在 构造 AdaBoost 的 代码 时 ， 我 们 将 首先 通过 一 个 简单 数据 集 来 确保 在 算 
人 然后 ， 建 立 一 个 叫 adaboost .py 的 新 文件 并 加 入 如 
下 人 RS 


def loadSsimpData( ) : 
datMat = matrix([[ 1. ,2.1], 


[2 
本 让 < 人 | 
[2 


也 和 了 
[ 2. ,1. ]]) 
classLabels = [1.0, 1.0, -1.0, -1.0, 1.0] 
return datMat,classLabels 





图 7-2 给 出 了 上 述 数 据 集 的 示意 图 。 如 果 想 要 试 着 从 某 个 坐标 轴 上 选择 

一 个 值 〈 即 选择 一 条 与 坐标 轴 平 行 的 直线 ) 来 将 所 有 的 圆 形 点 和 方形 点 
分 开 ， 这 显然 是 不 可 能 的 。 这 束 是 单 层 决策 树 难 以 处 理 的 一 个 著名 的 问 
题 。 通 过 使 用 多 榜 单 层 决 俩 树 ， 我 们 就 可 以 构建 出 一 个 能 够 对 该 数据 集 


完全 正确 分 类 的 分 类 器 。 





单 层 决策 树 测试 数据 


2.0 
1.8 
1.6 
1.4 
Lz 


1.0 


088 1.0 12 1.4 1.6 1.8 2.0 dt 


图 7-2 用 于 检测 AdaBoost 构 建 函 数 的 简单 数据 。 这 不 可 能 仪 仪 通 过 在 
某 个 坐标 轴 上 选择 某 个 闷 值 来 将 圆 形 点 和 方形 点 分 开 。AdaBoost 需 要 
将 多 个 单 层 决 策 树 组 合 起 来 才能 对 该 数据 集 进行 正确 分 类 


通过 键入 如 下 命令 可 以 实现 数据 集 和 类 标签 的 导入 : 


>>> import adaboost 
>>> datMat, classLabels=adaboost.1loadSimpData() 











有 了 数据 ， 接 下 来 就 可 以 通过 构建 多 个 函数 来 建立 单 层 决 策 树 。 


第 一 个 函数 将 用 于 测试 是 否 有 茶 个 值 小 于 或 者 大 于 我 们 正在 测试 的 国 
值 。 第 二 个 函数 则 更 加 复杂 一 些 ， 它 会 在 一 个 加 权 数 据 集中 循环 ， 并 找 
到 具有 最 低 错误 率 的 单 层 决 策 树 。 


这 个 程序 的 伪 代 码 看 起 来 大 致 如 下 : 


将 最 Wh or 
对 数据 集中 的 每 一 个 特征 (第 一 层 循环 〉: 
对 每 个 步 长 sD 






































对 每 个 不 等 号 《第 三 层 循环 ) : 
建立 一 棵 单 层 决 策 树 并 利用 加 权 数 据 集 对 它 进行 测试 
如 果 错 误 率 低 于 minError， 则 将 当前 单 层 决 策 树 设 为 最 佳 单 层 决策 树 
返回 最 佳 单 层 决 策 树 

































































接 下 来 ， 我 们 开始 构建 这 个 函数 。 将 程序 清单 7-1 中 的 代码 输入 
到 boost .py 中 并 保存 文件 。 


程序 清单 7-1 单 层 决 集 树 生 成 函数 


def stumpClassify(dataMatrix,dimen,threshVal,threshIneq): 
retArray = ones((shape(dataMatrix)[0],1)) 
If threshIneq == 'lt':retArray[dataMatrix[:,dimen] <= threshval] = -1.0 
else: 
retArray[dataMatrix[:,dimen] > threshVal] = -1.0 
return retArray 


def buildStump(dataArr,classLabels,D): 
dataMatrix = mat(dataArr); labelMat = mat(classLabels).T 
m,n = shape(dataMatrix) 
numSteps = 10.0; bestStump = {}; bestClasESt = mat(zeros((m,1))) 
minError = inf 
for i in range(n): 
rangeMin = dataMatrix[:,i].min(); rangeMax = dataMatrix[:,i].max(); 
stepSize = (rangeMax-rangeMin)/numSteps 
for j in range(-1,int(numSteps)+1): 
for inequal in ['1t', 'gt']: 
threshVal = (rangeMin + float(j) * stepSize) 
predictedVals = stumpClassify(dataMatrix,1i,threshVal,inequal) 
errArr = mat(ones((m,1))) 
errArr[predictedVals == labelMat] = 0 
weightedError = D.T*errArr 
#@ ”计算 加 权 错 误 率 
#print "split: dim %d, thresh %.2f, thresh ineqal: %s, the weighted e 
(i, threshVal, inequal, weightedError) 
If weightedError < minError: 
minError = weightedError 
bestClasEst = predictedVals.copy() 
bestSstump['dim'] = 1 
bestStump['thresh'] = threshVval 
bestStump['ineq'] = inequal 
return bestStump,minError,bestClasEst 


上 述 程序 包含 两 个 函数 。 一 个 函数 stumpclassify() 是 通过 国 值 比较 对 
数据 进行 分 类 的 。 人 边 的 数据 会 分 到 类 别 -1， 而 在 另外 一 边 
的 数据 分 到 关 别 +1。 该 函数 可 以 通过 数组 过 滤 来 实现 ， 首 先 将 返回 数组 
的 全 部 元 素 设 置 为 1， 然 后 将 所 有 不 满足 不 等 式 要 求 的 元 素 设 置 为 -1。 
可 以 基于 数据 集中 的 任 一 元 素 进行 比较 ， 同 时 也 可 以 将 不 等 号 在 大 于 、 
小 于 之 间 切 换 。 








第 二 个 函数 puildstump( ) 将 会 通 历 stumpclassify() 函 数 所 有 的 可 能 输入 
值 ， 并 找到 数据 集 上 最 佳 的 单 层 决策 树 。 这 里 的 “最 佳 ” 是 基于 数据 的 权 
重 同 量 p 来 定义 的 ， 读 者 很 快 就 会 看 到 其 具体 定义 了 。 在 确保 输入 数据 
符合 矩阵 格式 之 后 ， 整 个 函数 束 开 始 执 行 了 。 然 后 ， 函 数 将 构建 一 个 称 
为 beststump 的 空 字 典 ， 这 个 字典 用 于 存储 给 定 权重 同 量 Dp 时 所 得 到 的 最 
佳 单 层 决 策 树 的 相关 人 信息。 变量 numsteps 用 于 在 特征 的 所 有 可 能 值 上 进 
行人 融 历 。 而 变量 minError 则 在 一 开始 就 初始 化 成 正 无穷 大 ， 之 后 用 于 寻 
找 可 能 的 最 小 错误 率 。 


三 层 骸 套 的 for 循 环 是 程序 最 主要 的 部 分 。 第 一 层 for 循 环 在 数据 集 的 所 
有 特征 上 通 历 。 考 虑 到 数值 型 的 特征 ， 我 们 束 可 以 通过 计算 最 小 值 和 最 
大 值 来 了 解 应 该 需要 多 大 的 步 长 。 然 后 ， 第 二 层 for 循 环 再 在 这 些 值 上 
志 历 。 甚 至 将 国 值 设 置 为 整个 取 值 范围 之 外 也 是 可 以 的 。 因 此 ， 在 取 值 
范围 之 外 还 应 该 有 两 个 额外 的 步 又。 最 后 一 个 for 循 环 则 是 在 大 于 和 人 小 
于 之 间 切 换 不 等 式 。 


在 骨 套 的 三 层 for 循 环 之 内 ， 我 们 在 数据 集 及 三 个 循环 变量 上 调 

用 stumpclassify() 函 数 。 基 于 这 些 循环 变量 ， 该 水 数 将 会 返回 分 类 预测 
结果 。 接 下 来 构建 一 个 列 问 量 errArr， 如 果 predictedvals 中 的 值 不 等 于 
labelMat 中 的 真正 类 别 标签 值 ， 那 么 errArr 的 相应 位 置 为 1。 将 错误 问 
量 errArr 和 权重 同 量 D 的 相应 元 素 相 乘 并 求 和 ， 就 得 到 了 数 

值 weightedError@。 这 就 是 AdaBoost 和 分 类 器 交互 的 地 方 。 这 里 ， 我 
们 是 基于 权重 向 量 p 而 不 是 其 他 错误 计算 指标 来 评价 分 类 器 的 。 如 果 需 
要 使 用 其 他 分 类 器 的 话 ， 就 需要 考虑 D 上 最 佳 分 类 器 所 定义 的 计算 过 


程 。 


程序 接 下 来 输出 所 有 的 值 。 虽 然 这 一 行 后 面 可 以 注释 掉 ， 但 是 它 对 理解 
函数 的 运行 还 是 很 有 帮助 的 。 最 后 ， 将 当前 的 错误 率 与 已 有 的 最 小 错误 
率 进行 对 比 ， 如 果 当 前 的 值 较 小 ， 那 么 就 在 字典 beststump 中 保存 该 单 
层 决 策 树 。 字 典 、 错 误 率 和 类 别 估计 值 都 会 返回 给 AdaBoost 算 法 。 


为 了 解 实 际 运行 过 程 ， 在 Python 提示 符 下 输入 如 下 命令 : 


>>> D = mat(ones((5,1))/5) 

>>> adaboost.buildSstump(datMat,classLabels,D) 

split: dim 0，thresh 0.90, thresh ineqal: lt, the weighted error is 0.400 
split: dim 0, thresh 0.90, thresh ineqal: gt, the weighted error is 0.600 
split: dim 0, thresh 1.00, thresh ineqal: lt, the weighted error is 0.400 
split: dim 0, thresh 1.00, thresh ineqal: gt, the weighted error is 0.600 















































split: dim 1, thresh 2.10, thresh ineqal: lt, the weighted error is 0.600 


split: dim 1, thresh 2.10, thresh ineqal: gt, the weighted error is 0.400 
({'dim': ©0, "ineq': 'lt', 'thresh': 1.3}, matrix([[ 0.2]]), array([[-1.], 


0 
1. 
-1. 
1 
1 


buildstump 在 所 有 可 能 的 值 上 过 历 的 同时 ， 我 们 也 可 以 看 到 输出 的 结 

果 ， 并 且 最 后 会 看 到 返回 的 字典 。 读 者 可 以 思考 一 下 ， 该 词典 是 否 对 应 
0 0 

沦 ? 

















上 述 单 层 决 集 树 的 生成 函数 是 决 集 树 的 一 个 简化 版 本 。 它 束 是 所 请 的 纶 
学 习 器 ， 即 弱 分 类 算法 。 到 现在 为 止 ， 我们 已 经 构建 了 单 层 决 策 树 ， 并 
生成 了 程序 ， 做 好 了 过 渡 到 完整 AdaBoost 算 法 的 准备 。 在 下 一 节 当 中 ， 
我 们 将 使 用 多 个 弱 分 类 器 来 构建 AdaBoost 代 码 。 


7.4 完整 AdaBoost 算 法 的 实现 


在 上 一 节 ， 我 们 构建 了 一 个 基于 加 权 输 入 值 进行 决策 的 分 类 器 。 现 在 ， 
我 们 拥有 了 实现 一 个 完整 AdaBoost 算 法 所 需要 的 所 有 信息 。 我 们 将 利用 
7.3 节 构建 的 单 层 诀 策 树 来 实现 7.2 节 中 给 出 提纲 的 算法 。 


整个 实现 的 伪 代 码 如 下 : 


对 每 次 迭代 : 
利用 buildStump( ) 函 数 找到 最 佳 的 单 层 决策 树 
将 最 佳 单 层 决策 树 加 入 到 单 层 决策 树 数 组 
计算 alpha 
计算 新 的 权重 向 量 D 
更 新 累计 类 别 估计 值 
如 果 错 误 率 等 于 0 .9， 则 退出 循环 


















































为 了 将 该 函 数 放 入 Python 中 ， 打开 adaboost .py 文件 并 将 程序 清单 7-2 的 
代码 加 入 其 中 。 


程序 清单 7-2 基于 单 层 决策 树 的 AdaBoost 训 练 过 程 


def adaBoostTrainDS(dataArr,classLabels,numIt=40): 
weakClassArr = [] 
m = shape(dataArr)[0] 
D = mat(ones((m,1))/m) 
aggClassEst = mat(zeros((m,1))) 
for i in range(numIt): 
bestStump,error,classEst = buildSstump(dataArr,classLabels,D) 
print "D:",D.T 
alpha = float(0.5*]log((1.0-error)/max(error,1e-16))) 
bestStump[ 'alpha'] = alpha 
weakClassArr.append(bestSstump) 
print "classEst: ",classEst.T 
#@〈 以 下 两 行 ) 为 下 一 次 迭代 计算 *D* 
expon = multiply(-1i*alpha*mat(classLabels).T,classEst) 
D = multiply(D,exp(expon)) 
D = D/D.sum() 
# 人 @ (以 下 五 行 ) 错误 率 累加 计算 
aggClassEst += alpha*classEst 
print "aggClassEst: ",aggClassEst.T 
aggErrors = multiply(sign(aggClassEst) !=mat(classLabels).T,ones((m,1))) 
errorRate = aggErrors.sum()/m 
print "total error: ",errorRate,"\n" 
if errorRate == 0.0: break 
return weakClassArr 
>>> classifierArray = adaboost.adaBoostTrainDS(datMat,classLabels, 9) 
D: [[ 0.2 0.2 0.2 0.2 0.2]] 
classEst: [[-1i. 1. -1. -1. 1.]] 
aggClassEst: [[-0.69314718 0.69314718 -0.69314718 -0.69314718 0.69314718]] 
total error: 0.2 











D: [[ 0.5 0.125 0.125 0.125 0.125]] 
classEst: [[ 1. 1. -1. -1. -1. 

aggClassEst: [[ 0.27980789 1.66610226 -1.66610226 -1.66610226 -0.27980789]] 
total error: 0.2 

D: [[ 0.28571429 0.07142857 0.07142857 0.07142857 0.5 ]] 

classEst: [[ 1. 1. 1. 1. 1.]] 

aggClassEst: [[ 1.17568763 2.56198199 -0.77022252 -0.77022252 0.61607184]] 
total error: 0.0 


AdaBoost 算 法 的 输入 参数 包括 数据 集 、 类 别 标签 以 及 迭代 次 数 numTt， 
其 中 numIt 是 在 整个 AdaBoost 算 法 中 唯一 需要 用 户 指 定 的 参数 。 


我 们 假定 迭代 次 数 设 为 9， 如 果 算 法 在 第 三 次 迭代 之 后 错误 率 为 0， 那 么 
就 会 退出 迭代 过 程 ， 因 此 ， 此 时 就 不 需要 执行 所 有 的 9 次 迭代 过 程 。 
次 迭代 的 中 间 结 果 都 会 通过 print 语 句 进行 输出 。 后 面 ， 读 者 可 以 把 
print 输 出 语句 注释 挤 ， 但 是 现在 可 以 通过 中 间 结 果 来 了 解 AdaBoost 算 
法 的 内 部 运行 过 程 。 


函数 名 称 尾部 的 DS 代 表 的 束 是 单 层 决策 树 (decision stunp) ， 它 是 
AdaBoost 中 最 流行 的 弱 分 类 右 ， 当 然 并 非 唯一 可 用 的 弱 分 类 器 。 上 述 孔 
数 确实 是 建立 于 单 层 决 策 树 之 上 的 ， 但 是 我 们 也 可 以 很 容易 对 此 进行 修 
改 以 引入 其 他 基 分 类 器 。 实 际 上 ， 任 意 分 类 器 都 可 以 作为 基 分 类 器 ， 本 
书 前 面 讲 到 的 任何 一 个 算法 都 行 。 上 述 算法 会 输出 一 个 单 层 决策 树 的 数 
组 ， 因 此 首先 需要 建立 一 个 新 的 Python 表 来 对 其 进行 存储 。 然 后 ， 得 到 
数据 集中 的 数据 点 的 数目 mn， 并 建立 一 个 列 同 量 D。 


回 量 DD 非常 重要 ， 它 包含 了 每 个 数据 点 的 权重 。 一 开始 ， 这 些 权 重 都 赋 
予 了 相等 的 值 。 在 后 续 的 迭代 中 ，AdaBoost 算 法 会 在 增加 错 分 数据 的 权 
重 的 同时 ， 降 低 正 确 分 类 数据 的 权重 。D 是 一 个 概率 分 布 向 量 ， 因 此 其 
所 有 的 元 素 之 和 为 1.0。 为 了 满足 此 要 求 ， 一 开始 的 所 有 元 素 都 会 被 初 
始 化 成 Jm。 同 时 ， 程 序 还 会 建立 男 一 个 列 同 量 aggclassEst， 记 录 每 个 
数据 点 的 类 别 估计 累计 值 。 


AdaBoost 算 法 的 核心 在 于 for 循 环 ， 该 循环 运行 numrt 次 或 者 直到 训练 错 
误 率 为 0 为 止 。 循 环 中 的 第 一 件 事 束 是 利用 前 面 介 绍 的 buildstump() 函 
数 建 并 一 个 单 层 决策 树 。 该 函数 的 输入 为 权重 向 量 D， 返 回 的 则 古 利 
用 DD 而 得 到 的 具有 最 小 错误 率 的 单 层 决 岳 树 ， 同 时 返回 的 还 有 最 小 的 错 
误 率 以 及 估计 的 类 别 向 量 。 


接 下 来 ， 需 要 计算 的 则 是 alpha 值 。 该 值 会 告诉 总 分 类 器 本 次 单 层 决策 树 




















输出 结果 的 权重 。 其 中 的 语句 max(error，1e-16) 用 于 确保 在 没有 错误 时 
不 会 发 生 除 零 溢出 。 而 后 ，alpha 值 加 入 到 peststump 字 典 中 ， 该 字典 又 
添加 到 列表 中 。 该 词典 包括 了 分 类 所 需要 的 所 有 信息 。 


接 下 来 的 三 行 @ 则 用 于 计算 下 一 次 迭代 中 的 新 权重 向 量 D。 在 训练 错误 
率 为 0 时 ， 就 要 提前 结束 for 循 环 。 此 时 程序 是 通过 aggclassEst 变 量 保 

持 一 个 运行 时 的 类 别 估计 值 来 实现 的 人 @。 该 值 只 是 一 个 浮 点 数 ， 为 了 得 
到 二 值 分 类 结果 还 需要 调用 sign() 函 数 。 如 果 总 错误 率 为 0， 则 由 break 
语句 中 止 for 循 环 。 


接 下 来 我 们 观察 一 下 中 间 的 运行 结果 。 还 记得 吗 ， 数 据 的 类 别 标签 为 
[1.0，1.0，-1.0，-1.0，1.0]。 在 第 一 轮 欠 代 中 ，D 中 的 所 有 值 都 相等 。 于 
是 ， 只 有 第 一 个 数据 点 被 错 分 了 。 因 此 在 第 二 轮 迭 代 中 ， 辐 量 给 第 一 
个 数据 点 0.5 的 权重 。 这 天 可 以 通过 变量 aggclassEst 的 符号 来 了 解 总 的 
类 别 。 第 二 次 欠 代 之 后 ， 我 们 束 会 发 现 第 一 个 数据 点 已 经 正确 分 类 了 ， 
但 此 时 最 后 一 个 数据 点 却 是 错 分 了 。D 辣 量 中 的 最 后 一 个 元 素 变 成 0.5， 
而 D 癌 量 中 的 其 他 值 都 变 得 非常 小 。 最 后 ， 第 三 次 迭代 之 后 aggclassEst 
es 那么 训练 错误 率 为 0， 程 序 


为 了 观察 classifierArray 的 值 ， 键 入 : 


>>> classifierArray 

[{'dim': ©0, 'ineq': 'lt', 'thresh': 1.3, 'alpha': 0.69314718055994529}, 
{'dim': 1, 'ineq': 'lt', 'thresh':; 1.0, 'alpha': 0.9729550745276565}, 
{'dim': 0,'ineq': 'lt', 'thresh': 0.90000000000000002, 'alpha':0.89587973461:. 





























该 数组 包含 三 部 词典 ， 其 中 包含 了 分 类 所 需要 的 所 有 信息 。 此 时 ， 一 个 
分 类 器 已 经 构建 成 功 ， 而 且 只 要 我 们 愿意 ， 随 时 都 可 以 将 训练 错误 率 降 
到 0。 那 么 测试 错误 率 会 如 何 呢 ? 为 了 观察 汕 试 错误 率 ， 我 们 需要 编写 
分 类 的 一 些 代 码 。 下 一 节 我 们 将 讨论 分 类 。 


7.5 测试 算法 : 基于 AdaBoost 的 分 类 


一 旦 拥有 了 多 个 弱 分 类 器 以 及 其 对 应 的 alpha 值 ， 进 行 测试 就 变 得 相当 容 
易 了。 在 程序 清单 7-2 的 adaBoostTrainDs() 中 ， 我 们 实际 已 经 写 完了 大 
部 分 的 代码 。 现 在 ， 需 要 做 的 就 只 是 将 弱 分 类 器 的 训练 过 程 从 程序 中 抽 
出 来 ， 然 后 应 用 到 某 个 具体 的 实例 上 去 。 每 个 弱 分 类 器 的 结果 以 其 对 应 
的 alpha 值 作为 权重 。 所 有 这 些 弱 分 类 器 的 结果 加 权 求 和 就 得 到 了 最 后 的 
结果 。 在 程序 清单 7-3 中 列 出 了 实现 这 一 过 程 的 所 有 人 代码。 然后， 将 下 
列 代码 添加 到 adaboost .py 中 ， 就 可 以 利用 它 基 于 adaboostTrainpDs() 中 
的 弱 分 类 器 对 数据 进行 分 类 。 


程序 清单 7-3”AdaBoost 分 类 函数 





def adaClassify(datToClass,classifierArr): 
dataMatrix = mat(datToClass) 
m = shape(dataMatrix)[0] 
aggClassEst = mat(zeros((m,1))) 
for i in range(len(classifierArr)): 
classEst = stumpClassify(dataMatrix,classifierArr[i] 
['dim'],classifierArr[i]['thresh'],classifierArr[i]l['ineq']) 
aggClassEst += classifierArr[i]['alpha']*classEst 
print aggClassEst 
return sign(aggClassEst) 


读者 也 许可 以 猜 到 ， 上 述 的 adaclassify() 国 数 就 是 利用 训练 出 的 多 个 
弱 分 类 堪 进 行 分 类 的 函数 。 该 函数 的 输入 是 由 一 个 或 者 多 个 待 分 类 样 例 
datToClass 以 及 多 个 弱 分 类 器 组 成 的 数组 classifierArr。 也 | 

数 adaclassify() 首 先 将 datToclass 转 换 成 了 一 个 NumPy 窍 阵 ， 并 且 得 
到 datToclass 中 的 待 分 类 样 例 的 个 数 m。 然 后 构建 一 个 0 列 同 量 
aggCclassEst， 这 个 列 同 量 与 adaBoostTrainDs() 中 的 含义 一 样 。 


接 下 来 ， 裔 历 classifierArr 中 的 所 有 弱 分 类 器 ， 并 基于 

stumpClassify() 对 每 个 分 类 右 得 到 一 个 类 别 的 估计 值 。 在 前 面 构建 单 层 
决策 树 时 ， 我 们 已 经 见 过 了 stumpclassify() 函 数 ， 在 那里 ， 我 们 在 所 有 
可 能 的 树桩 值 上 进行 迭代 来 得 到 具有 最 小 加 权 错 误 率 的 单 层 决 策 树 。 而 
这 里 我 们 只 是 简单 地 应 用 了 单 层 决策 树 。 输 出 的 类 别 估计 值 乘 上 该 单 层 
决策 树 的 alpha 权 重 然后 累加 到 aggclassEst 上 ， 就 完成 了 这 一 过 程 。 上 
述 程序 中 加 入 了 一 条 print 语 句 ， 以 便 我 们 了 解 aggclassEst 每 次 迭代 后 
的 变化 结果 。 最 后 ， 程序 返回 aggclassEst 的 符号 ， 即 如 果 aggcLassEst 











大 于 0 则 返回 +1， 而 如 果 小 于 0 则 返回 -1。 


我 们 再 看 看 实际 中 的 运行 效果 。 加 入 程序 清单 7-3 中 的 代码 之 后 ， 在 
Python 提示 符 下 输入 : 


>>> reload(adaboost) 
<module 'adaboost' from "adaboost .py '> 


如 果 没 有 弱 分 类 器 数组 ， 可 以 输入 如 下 命令 : 


>>> datArr, LabelArr=adaboost .LoadSimpData( ) 
>>> classifierArr = adaboost .adaBoostTrainDS(datArr, LabeJlArr 30) 


于 是 ， 可 以 输入 如 下 命令 进行 分 类 : 


>>> adaboost.adaClassify([0, 0],classifierArr) 
[[-0.69314718]] 
[[-1.66610226]] 
[[-2.56198199]] 
matrix([[-1.]]) 


可 以 发 现 ， 随 着 迭代 的 进行 ， 数 据点 [0,0] 的 分 类 结果 越 来 越 强 。 当 然 ， 
我 们 也 可 以 在 其 他 点 上 进行 分 类 : 


>>> adaboost.adaClassify([[5, 5],1[9,0]],classifierArr) 
[[ 0.69314718] 


[-2.56198199]] 
matrix([[ 1.], 
[-1.1]) 





这 两 个 点 的 分 类 结果 也 会 随 着 达 代 的 进行 而 越 来 越 强 。 在 下 一 市 中 ， 我 
们 会 将 该 分 类 器 应 用 到 一 个 规模 更 大 、 难 度 也 更 大 的 真实 数据 集中 。 


7.6 示例: 在 一 个 难 数据 集 上 应 用 
AdaBoost 

本 节 我 们 将 在 第 4 章 给 出 的 马 疝 病 数据 集 上 应 用 AdaBoost 分 类 器 。 在 第 4 
章 ， 我 们 曾经 利用 Logistic 回 归来 预测 患 有 疝 病 的 马 是 否 能 够 存活 。 而 


在 本 节 ， 我 们 则 想 要 知道 如 果 利 用 多 个 单 层 决 集 树 和 AdaBoost 能 不 能 预 
测 得 更 准 。 


示例 : 在 一 个 难 数据 集 上 的 AdaBoost 心 用 











. 收集 数据 : 提供 的 文本 文件 。 

. 准备 数据 : 确保 类 别 标签 是 +1 和 -1 而 非 1 和 0。 

. 分 析 数 据 : 手工 检查 数据 。 

l 训练 径 法 : 在 数据 上 ， 利 用 adaBoostTrainDSs( ) 函 数 训练 出 一 系列 的 
分 类 疾 。 

5. 测试 算法 : 我 们 拥有 两 个 数据 集 。 在 不 采用 随机 抽样 的 方法 下 ， 我 
们 束 会 对 AdaBoost 和 Logistic 回 归 的 结果 进行 完全 对 等 的 比较 。 

6. 使 用 算法 : 观察 该 例子 上 的 错误 紊 。 不 过 ， 也 可 以 构建 一 个 Web 网 

站 ， 让 驯 马 师 输入 马 的 症状 然后 预测 马 是 否 会 死去 。 


在 使 用 上 述 程序 清单 中 的 代码 之 前 ， 必 须要 有 辐 文 件 中 加 载 数据 的 方 
法 。 一 个 常见 的 loadpataset( ) 的 程序 如 下 所 示 。 


程序 清单 7-4 目 适 应 数据 加 载 函 数 


def loadDataSet(fileName ) : 
numFeat = len(open(fileName).readline().split('\t')) 


依 C 方 瑚 


dataMat = []; labelMat = [] 

fr = open(fileName) 

for line in fr.readlines(): 
lineArr =[] 
curLine = line.strip().split('\t"') 
for i in range(numFeat-1): 

lineArr.append(float(curLine[i])) 

dataMat .append(lineArr) 
labelMat.append(float(curLine[-1])) 

return dataMat, labelMat 


性 


， 读 者 可 能 多 次 见 过 了 上 述 程序 清单 中 的 loadpataset() 函 数 。 在 


这 里 ， 并 不 必 指 定 每 个 文件 中 的 特征 数目 ， 所 以 这 里 的 函数 与 前 面 的 稍 
有 不 同 。 该 函数 能 够 自动 检测 出 特征 的 数目 。 同 时 ， 该 函数 也 假定 最 后 


一 个 特征 是 类 别 标签 。 


将 上 述 代 码 添 加 到 adaboost .py 文件 中 并 且 将 其 保存 之 后 ， 融 可 以 输入 
如 下 命令 来 使 用 上 述 函 数 : 

>>> datArr, labelArr = adaboost.1loadDataSet('horseColicTraining2.txt') 

>>> classifierArray = adaboost.adaBoostTrainDS(datArr,1abelArr, 10) 


total error: 0.284280936455 
total error: 0.284280936455 


total error: 0.230769230769 

>>> testArr, testLabelArr = adaboost ,JoadDataSet( 'horseColicTest2 .txt ') 
>>> prediction10 = adaboost.adaClassify(testArr,classifierArray) 

To get the number of misclassified examples type in: 

>>> errArr=mat(ones((67,1))) 

>>> errArr[prediction10!=mat(testLabelArr).T].sum() 

16.0 


要 得 到 错误 率 ， 只 需 将 上 述 错 分 样 例 的 个 数 除 以 67 即 可 。 


将 弱 分 类 器 的 数目 设 定 为 1 到 10 ”000 之 间 的 几 个 不 同 数字 ， 并 运行 上 述 
过 程 。 这 时 ， 得 到 的 结果 就 会 如 表 7-1 所 示 。 在 该 数据 集 上 得 到 的 错误 
率 相 当 低 。 如 果 没 忘 的 话 ， 在 第 5 章 中 ， 我 们 在 同一 数据 集 上 采用 
Logistic 回 归 得 到 的 平均 错误 率 为 0.35。 而 采用 AdaBoost， 得 到 的 错误 率 
就 永远 不 会 那么 高 了 。 从 表 中 可 以 看 出 ， 我 们 仪 仅 使 用 50 个 弱 分 类 器 ， 
就 达到 了 较 高 的 性 能 。 


表 7-1 不 同 弱 分 类 器 数目 情况 下 的 AdaBoost 测 试 和 分 类 错误 率 。 该 数 
据 集 是 个 难 数 据 集 。 通 常 情况 下 ，AdaBoost 会 达到 一 个 稳定 的 测试 错 
误 率 ， 而 并 不 会 随 分 类 器 数目 的 增多 而 提高 

分 类 器 数目 “训练 错误 率 〈%) ”测试 错误 率 (%) 








观察 表 7-1 中 的 测试 错误 率 一 栏 ， 就 会 发 现 测 试 错 误 率 在 达到 了 一 个 最 
小 值 之 后 又 开始 上 升 了 。 这 类 现象 称 之 为 过 拟 合 〈overfitting， 也 称 过 
学 习 ) 。 有 文献 声称 ， 对 于 表现 好 的 数据 集 ，AdaBoost 的 测试 错误 率 就 





会 达到 一 个 稳定 值 ， 并 不 会 随 独 分 类 器 的 增多 而 上 升 。 或 许 在 本 例子 中 
的 数据 集 也 称 不 上 “表现 好 ?。 该 数据 集 一 开始 有 309% 的 缺失 值 ， 对 于 

Logistic 回 归 而 言 ， 这 些 缺 失 值 的 假设 就 是 有 效 的 ， 而 对 于 决策 树 却 可 
能 并 不 合适 。 如 果 回 到 数据 集 ， 将 所 有 的 0 值 丛 换 成 其 他 值 ， 或 者 给 定 
类 别 的 平均 值 ， 那 么 能 人 否 得 到 更 好 的 性 能 ? 


很 多 人 都 认为 ，AdaBoost 和 SVM 是 监督 机 器 学 习 中 最 强大 的 两 种 方法 。 
实际 上 ， 这 两 者 之 间 拥 有 不 少 相 似 之 处 。 我 们 可 以 把 弱 分 类 器 想象 成 
SVM 中 的 一 个 核 函 数 ， 也 可 以 按照 最 大 化 某 个 最 小 间隔 的 方式 重 写 
AdaBoost 算 法 。 而 它们 的 不 同 就 在 于 其 所 定义 的 间隔 计算 方式 有 所 不 
i i 
就 会 0 明显 。 


在 下 一 节 中 ， 我 们 不 再 讨论 AdaBoost， 而 是 转 而 关注 所 有 分 类 器 中 的 一 


个 普遍 问题 。 











7.7 ” 非 均 衡 分 类 问题 


在 我 们 结束 分 类 这 个 主题 之 前 ， 还 必须 讨论 一 个 问题 。 在 前 面 六 章 的 所 
有 分 类 介绍 中 ， 我 们 都 假设 所 有 类 别 的 分 类 代价 是 一 样 的 。 例 如 在 第 5 
章 ， 我 们 构建 了 一 个 用 于 检测 患 疝 病 的 马匹 是 否 存活 的 系统 。 在 那里 ， 

我 们 构建 了 分 类 器 ， 但 是 并 没有 对 分 类 后 的 情形 加 以 讨论 。 假 如 某 人 给 
我 们 过 来 一 匹 马 ， 他 和 希望 我 们 能 预测 这 匹 马 能 否 生存 。 我 们 说 马 会 死 ， 

那么 他 们 就 可 能 会 对 马 实施 安乐 死 ， 而 不 是 通过 给 马 喂 药 来 延缓 其 不 可 
避免 的 死亡 过 程 。 我 们 的 预测 也 许 是 错误 的 ， 马 本 来 是 可 以 继续 活着 

的 。 毕 竟 ， 我 们 的 分 类 器 只 有 80% 的 精确 率 〈accuracy) 。 如 果 我 们 预 
测 错误 ， 那 么 我 们 将 会 错 杀 了 一 个 如 此 昂贵 的 动物 ， 更 不 要 说 人 对 马 还 
存在 情感 上 的 依恋 。 


如 何 过 渡 垃 圾 邮件 呢 ? 如 果 收 件 箱 中 会 出 现 某 些 垃圾 邮件 ， 但 合法 邮件 
永远 不 会 扔 进 垃 圾 邮件 夹 中 ， 那 么 人 们 是 否 会 满意 呢 ? 冶 症 检测 又 如 何 
呢 ? 只 要 患 病 的 人 不 会 得 不 到 治疗 ， 那 么 再 找 一 个 医生 来 看 看 会 不 会 更 
好 呢 《〈 即 情愿 误 判 也 不 漏 判 ) ? 


还 可 以 举 出 很 多 很 多 这 样 的 例子 ， 坦 白地 说 ， 在 大 多 数 情况 下 不 同类 别 
的 分 类 代价 并 不 相等 。 在 本 节 中 ， 我 们 将 会 考 硅 一 种 新 的 分 类 器 性 能 度 
量 方 法 ， 并 通过 图 像 技术 来 对 在 上 述 非 均衡 问题 下 不 同 分 类 器 的 性 能 进 
行 可 视 化 处 理 。 然 后 ， 我 们 考察 这 两 种 分 类 器 的 变换 算法 ， 它 们 能 够 将 
不 同 决策 的 代价 考虑 在 内 。 


7.7.1 其 他 分 类 性 能 度量 指标 : 正确 率 、 召 回 率 及 ROC 曲 线 


到 现在 为 止 ， 本 书 都 是 基于 错误 率 来 衡量 分 类 器 任务 的 成 功 程 度 的 。 错 
误 率 指 的 是 在 所 有 测试 样 例 中 错 分 的 样 例 比 例 。 实 际 上 ， 这 样 的 度量 错 
误 掩盖 了 样 例如 何 被 分 错 的 事实 。 在 机 器 学 习 中 ， 有 一 个 普 裔 适用 的 称 
为 混 请 矩阵 〈confusion matrix) 的 工具 ， 它 可 以 帮助 人 们 更 好 地 了 解 分 
类 中 的 错误 。 有 这 样 一 个 关于 在 房子 周围 可 能 发 现 的 动物 类 型 的 预测 ， 
这 个 预测 的 三 类 问题 的 混 消 矩阵 如 表 7-2 所 示 。 


表 7-2 一 个 三 类 问题 的 混 涌 矩阵 
































利用 混 消 矩阵 就 可 以 更 好 地 理解 分 类 中 的 错误 了 。 如 采 和 矩阵 中 的 非 对 角 
元 素 均 为 0， 束 会 得 到 一 个 完美 的 分 类 器 。 


接 下 来 ， 我 们 考虑 男 外 一 个 混淆 矩阵 ， 这 次 的 矩阵 只 针对 一 个 简单 的 二 
类 问题 。 在 表 7-3 中 ， 给 出 了 访 混 清 窍 阵 。 在 这 个 二 类 问题 中 ， 如 果 将 
一 个 正 例 判 为 正 例 ， 那 么 就 可 以 认为 产生 了 一 个 真正 例 〈True 
Positive，TP， 也 称 真 阳 ) ; 如 果 对 一 个 反例 正确 地 判 为 反例 ， 则 认为 
产生 了 一 个 真 反例 (True Negative，TN， 也 称 真 阴 ) 。 相 应 地 ， 另 外 两 
种 情况 则 分 别称 为 伪 反 例 (False Negative，EFN， 也 称 假 阴 ) 和 伪 正 例 
(False Positive，FP， 也 称 假 阳 ) 。 这 4 种 情况 如 表 7-3 所 示 。 


表 7-3 ”一 个 二 类 问题 的 混 清算 阵 ， 其 中 的 输出 采用 了 不 同 的 类 别 标签 











预测 结果 
+] 一 】 
+1 真正 例 (TP 伪 反 例 (FN ) 
一 | 伪 正 例 (FP ) 真有 反例 (TN ) 








在 分 类 中 ， 当 某 个 类 别 的 重要 性 高 于 其 他 类 别 时 ， 我 们 就 可 以 利用 上 述 
定义 来 定义 出 多 个 比 错误 率 更 好 的 新 指标 。 第 一 个 指标 是 正确 率 
(Precision) ， 它 等 于 TP/(TP+FP)， 给 出 的 是 预测 为 正 例 的 样本 中 的 真 
正 正 例 的 比例 。 第 三 个 指标 是 召回 率 〈Recall) ， 它 等 于 TP/(TP+FN)， 
给 出 的 是 预测 为 正 例 的 真实 正 例 占 所 有 真实 正 例 的 比例 。 在 召回 率 很 大 
的 分 类 器 中 ， 真 正 判 错 的 正 例 的 数目 并 不 多 。 


我 们 可 以 很 容易 构造 一 个 高 正确 率 或 高 召回 率 的 分 类 器 ， 但 是 很 难 同时 
保证 两 者 成 立 。 如 果 将 任何 样本 都 判 为 正 例 ， 那 么 召回 率 达 到 百分之百 
。 构 建 一 个 同时 使 正确 率 和 召回 紊 最 大 的 分 类 器 十 具 


为 一 个 用 于 撤 量 分 类 中 的 非 均 衡 性 的 工具 是 ROC 曲 线 (ROC curve) ， 























ROC 代 表 接 收 者 操作 特征 (receiver operating characteristic) ， 它 最 早 在 
1 由 电气 工程 师 构 建 雷达 系统 时 使 用 过 。 图 7-3 给 出 了 一 条 ROC 
线 的 例子 。 


AdaBoost 马 疝 病 检测 系统 的 ROC 曲 线 


好 厨 演 
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图 7-3 ”利用 10 个 单 层 决策 树 的 AdaBoost 马 疝 病 检测 系统 的 ROC 曲 线 


在 图 7-3 的 ROC 曲 线 中 ， 给 出 了 两 条 线 ， 一 条 虚线 一 条 实 线 。 图 中 的 横 
轴 是 伪 正 例 的 比例 〈 假 阳 率 =FP/(FEP+TN)) ， 而 纵 轴 是 真正 例 的 比例 

( 真 阳 率 =TP/(TP+FN)) 。ROC 曲 线 给 出 的 是 当 阔 值 变化 时 假 阳 率 和 真 
阳 率 的 变化 情况 。 左 下 角 的 点 所 对 应 的 是 将 所 有 样 例 判 为 反例 的 情况 ， 
而 右上 角 的 点 对 应 的 则 是 将 所 有 样 例 判 为 正 例 的 情况 。 虚 线 给 出 的 是 随 
机 猜测 的 结果 曲线 。 


ROC 曲 线 不 但 可 以 用 于 比较 分 类 器 ， 还 可 以 基于 成 本 效益 〈cost-versus- 
benefit) 分 析 来 做 出 决策 。 由 于 在 不 同 的 国 值 下 ， 不 同 的 分 类 器 的 表现 





情况 可 能 各 不 相同 ， 因 此 以 某 种 方式 将 它们 组 合 起 来 或 许 会 更 有 意义 。 
如 果 只 是 简单 地 观察 分 类 器 的 错误 率 ， 那 么 我 们 惑 难以 得 到 这 种 更 深入 
的 洞察 效果 了 。 


在 理想 的 情况 下 ， 最 佳 的 分 类 器 应 该 尺 可 能 地 处 于 左上 角 ， 这 束 意 味 着 
分 类 器 在 假 阳 率 很 低 的 同时 获得 了 很 高 的 真 阳 率 。 例 如 在 垃圾 邮件 的 过 
小 中 ， 这 就 相当 于 过 滤 了 所 有 的 垃圾 邮件 ， 但 没有 将 任何 合法 邮件 误 识 
为 垃圾 邮件 而 放 入 垃圾 邮件 的 文件 夹 中 。 


对 不 同 的 ROC 曲 线 进 行 比较 的 一 个 指标 是 曲线 下 的 面积 (Area Unser 
the Curve，AUC) 。AUC 给 出 的 是 分 类 器 的 平均 性 能 值 ， 当 然 它 并 不 能 
完全 代 蔡 对 整 条 曲线 的 观察 。 一 个 完美 分 类 器 的 AUC 为 1.0， 而 随机 猪 
测 的 AUC 则 为 0.5。 


为 了 男 出 ROC 曲 线 ， 分 类 器 必须 提供 每 个 样 例 被 判 为 阳性 或 者 阴性 的 可 
信 程 度 值 。 尺 管 大 多 数 分 类 器 都 能 做 到 这 一 点 ， 但 是 通常 情况 下 ， 这 些 
值 会 在 最 后 输出 离散 分 类 标签 之 前 被 清除 。 朴 素 贝 叶 斯 能 够 提供 一 个 可 
能 性 ， 而 在 Logistic 回 归 中 输入 到 Sigmoid 函 数 中 的 是 一 个 数值 。 在 
AdaBoost 和 SVM 中 ， 都 会 计算 出 一 个 数值 然后 输入 到 sign() 函 数 中 。 所 
有 的 这 些 值 都 可 以 用 于 衡量 给 定 分 类 器 的 预测 强度 。 为 了 创建 ROC 曲 
线 ， 首 先 要 将 分 类 样 例 按照 其 预测 强度 排序 。 先 从 排名 最 低 的 样 例 开 
始 ， 所 有 排名 更 低 的 样 例 都 被 判 为 反例 ， 而 所 有 排名 更 高 的 样 例 都 被 判 
为 正 例 。 该 情况 的 对 应 点 为 <1.0,1.0>。 然 后 ， 将 其 移 到 排名 次 低 的 样 例 
中 去 ， 如 果 该 样 例 属于 正 例 ， 那 么 对 真 阳 率 进行 修改 ;， 如 果 该 样 例 属于 
有 反例， 那么 对 假 明 率 进 行 修改 。 


上 述 过 程 听 起 来 有 点 容易 让 人 混淆 ， 但 是 如 果 阅 读 一 下 程序 清单 7-5 中 
J 一 切 束 会 变 得 一 目 了 然 了 。 打 开 adaboost .py 文件 并 加 入 如 下 
尺码 。 


程序 清单 7-5 ROC 曲 线 的 绘制 及 AUC 计 算 函 数 


def plotROoCc(predStrengths，classLabels ) : 
import matplotlib.pyplot as plt 
cur = (1.0,1.0) 
ySum = 0.0 
numPosClas = sum(array(classLabels)==1.0) 
ysStep = 1/float(numPposClas) 
xStep = 1/float(len(classLabels)-numposClas) 
#@ 获取 排 好 序 的 索引 
sortedIndicies = predStrengths.argsort() 
fig = plt,figure() 























fig, clf() 
ax = plt.subplot(111) 
for index in sortedIndicies.tolist()[0]: 
if classLabels[index] == 1.0: 
delX = 0; delY = ysStep; 
else: 
delxX = xStep; delY = 0; 
ySum += cur[1] 
ax.plot([cur[0],cur[0]-delx], [cur[1],cur[1i]j-delY], c='b') 
cur = (cur[0]-delx,cur[1i]-delY) 
ax.plot([9,1],[90,1],'b--') 
plt.xlabel('False Positive Rate'); plt.ylabel('True Positive Rate') 
plt.title('ROC curve for AdaBoost Horse Colic Detection System') 
ax.axis([0,1,0,1]) 
plt.show() 
print "the Area Under the Curve is: ",ySum*xStep 


上 述 程 序 中 的 函数 有 两 个 输入 参数 ， 第 一 个 参数 是 一 个 NumPy 数 组 或 者 
一 个 行 同 量 组 成 的 矩阵 。 该 参数 代表 的 则 是 分 类 占 的 预测 强度 。 在 分 类 
费 和 训练 函数 将 这 些 数 值 应 用 到 sign() 销 数 之 前 ， 和 它们 不已 经 疡 生 了 。 
尽管 很 快 就 可 以 看 到 该 函数 的 实际 执行 效果 ， 但 是 我 们 还 是 要 先 讨 论 一 
下 这 段 代 码 。 函 数 的 第 二 个 输入 参数 是 先前 使 用 过 的 classLabels。 我 
们 首先 导入 pyplot， 然 后 构建 一 个 浮 点 数 二 元 组 ， 并 将 它 初始 化 为 
(1,0,1.0)。 该 元 组 保留 的 是 绘制 光标 的 位 置 ， 变 量 ysum 则 用 于 计算 AUC 
的 值 。 接 下 来 ， 通 过 数组 过 滤 方 式 计算 正 例 的 数 日 ， 并 将 该 值 赋 给 
numPosClas。 该 值 先 是 确定 了 在 y 坐 标 轴 上 的 步 进 数目 ， 接着 我 们 在 x 轴 
和 y 轴 的 0.0 到 1.0 区 间 上 绘 点 ， 因 此 y 轴 上 的 步 长 是 1.00numPosClas。 类 似 
地 ， 就 可 以 得 到 x 轴 的 步 长 了 。 


接 下 来 ， 我 们 得 到 了 排序 索引 @， 但 是 这 些 索 引 是 按照 最 小 到 最 大 的 顺 
序 排列 的 ， 因 此 我 们 需 要 从 点 <1.0,1.0> 开 始 绘 ， 一 直到 <0,0>。 跟 腹 的 
三 行 代码 则 是 用 于 构建 画笔 ， 并 在 所 有 排序 值 上 进行 循环 。 这 些 值 在 一 
个 Numpy 数 组 或 者 矩阵 中 进行 排序 ， Python 则 需要 一 个 表 来 进行 迭代 循 
环 ， 因 此 我 们 需要 调用 tolist() 方 法 。 当 过 历 表 时 ， 每 得 到 一 个 标签 为 
1.0 的 类 ， 则 要 沿 着 y 轴 的 方 癌 下 降 一 个 步 长 ， 即 不 断 降低 真 阳 率 。 类 似 
地 ， 对 于 每 个 其 他 类 别 的 标签 ， 则 是 在 x 轴 方 同上 倒退 了 一 个 步 长 ( 假 
阴 率 方向 ) 。 上 述 代 码 只 关注 1 这 个 类 别 标签 ， 因 此 就 无 所 谓 是 采用 1/0 
标签 还 是 +1/-1 标 签 。 


为 了 计算 AUC， 我 们 需要 对 多 个 小 窍 形 的 面积 进行 累加 。 这 些小 矩形 的 
宽度 古 xstep， 因 此 可 以 先 对 所 有 短 形 的 高 度 进行 累加 ， 最 后 民有 飞 以 

xStep 得 到 其 总 面积 。 所 有 高 度 的 和 〈ysum) 随 肴 x 轴 的 每 次 移动 而 渐次 
增加 。 一 旦 决定 了 是 在 x 轴 还 是 y 轴 方向 上 进行 移动 的 ， 我 们 就 可 以 在 当 



































前 点 和 新 点 之 间 男 出 一 条 线段 。 然 后 ， 当 前 点 cur 更 新 了 了。 最后， 我 们 
就 会 得 到 一 个 像样 的 绘图 并 将 AUC 打 印 到 终端 输出 。 


运行 效果 ， 我 们 需要 将 adaboostTrainDS( ) 的 最 后 一 行 代码 蔡 


return weakClassArr,aggClassEst 


以 得 到 aggclassEst 的 值 。 然 后 ， 在 Python 提示 符 下 键入 如 下 命令 


>>> reload(adaboost) 

<module 'adaboost' from 'adaboost.pyc'> 

>>> datArr, labelArr = adaboost ,JoadDataSet( 'horseCcolicTraining2 ,txt ') 

>>> classifierArray,aggClassEst = 
adaboost.adaBoostTrainDS(datArr,1abelArr, 10) 

>>> adaboost .plotROC(aggClassEst.T,1labelArr) 

the Area Under the Curve is: 0.858296963506 


这 时 ， 我 们 也 会 得 到 和 图 7-3 一 样 的 ROC 曲 线 。 这 是 在 10 个 弱 分 类 器 
下 ，AdaBoost 算 法 性 的 吉 果 。 我 们 还 记得 ， 当 初 我 们 在 50 个 弱 分 类 器 
下 得 到 了 最 优 的 分 类 性 能 ， 那 么 这 种 情况 下 的 ROC 曲 线 会 如 何 呢 ? 这 时 
的 AUC 是 不 是 更 好 呢 ? 


7.7.2 ”基于 代价 函数 的 分 类 堪 诀 策 控 制 


除了 调节 分 类 器 的 冰 值 之 外 ， 我 们 还 有 一 些 其 他 可 以 用 于 处 理 非 均衡 分 
类 的 代价 的 方法 ， 其 中 的 一 种 和 尔 为 代价 敏感 的 学 习 (cost-sensitive 
learning) 。 考 虑 表 7-4 中 的 代价 窍 阵 ， 第 一 张 表 给 出 的 是 到 目前 为 止 分 
类 器 的 代价 矩阵 《代价 不 是 0 就 是 1) 。 我 们 可 以 基于 该 代价 矩阵 计算 其 
总 代价 : TP*9+FNx*1+FP*1+TNxg。 接 下 来 我 们 考虑 下 面 的 第 二 张 表 ， 是 于 
该 代价 矩阵 的 分 类 代价 的 计算 公式 为 : TP*(-5)+FN*1+FP*50+TNxg9。 采 用 
第 二 张 表 作为 代价 矩阵 时 ， 两 种 分 mn 样 的 。 类 似 地 ， 
这 两 种 正确 分 类 所 得 到 的 收益 也 不 一 样 。 如 果 在 构建 分 类 器 时 ， 知 道 了 
这 些 代 价值 ， 那 么 就 可 以 选择 付出 最 小 代价 的 分 类 如 


表 7-4 一 个 二 类 问题 的 代价 矩阵 











预测 结果 








真实 结果 


预测 结果 


真实 结果 





在 分 类 算法 中 ， 我 们 有 很 多 方法 可 以 用 来 引入 代价 信息 。 在 AdaBoost 
中 ， 可 以 基于 代价 函数 来 调整 错误 权重 向 量 D。 在 杆 系 贝 叶 斯 中 ， 可 以 
选择 具有 最 小 期 望 代 价 而 不 是 最 大 概率 的 类 别 作为 最 后 的 结果 。 在 SVM 
中 ， 可 以 在 代价 函数 中 对 于 不 同 的 类 别 选 择 不 同 的 参数 c。 上 述 做 法 就 
会 给 较 小 类 更 多 的 权重 ， 即 在 训练 时 ， 小 类 当中 只 允许 更 少 的 错误 。 


7.7.3 ”处 理 非 均衡 问题 的 数据 抽样 方法 


男 外 一 种 针对 非 均 衡 问 题 调 市 分 类 器 的 方法 ， 束 是 对 分 类 器 的 训练 数据 
进行 改造 。 这 可 以 通过 欠 抽 样 (undersampling) 或 者 过 抽样 
(oversampling〉 来 实现 。 过 抽样 意味 着 复制 样 例 ， 而 欠 抽 样 意味 着 删 
除 样 例 。 不 管 采 用 哪 种 方式 ， 数 据 都 会 从 原始 形式 改造 为 新 形式 。 抽 样 
过 程 则 可 以 通过 随机 方式 或 者 某 个 预定 方式 来 实现 。 


通常 也 会 存在 菏 个 罕见 的 类 别 需 要 我 们 来 识别 ， 比 如 在 信用 卡其 诈 当 

中 。 如 前 所 述 ， 正 例 类 别 属于 罕见 类 别 。 我 们 希望 对 于 这 种 罕见 类 别 能 
尽 可 能 保留 更 多 的 信息 ， 因 此 ， 我 们 应 该 保留 正 例 类 别 中 的 所 有 样 例 ， 
而 对 反例 类 别 进行 欠 抽 样 或 者 样 例 删 除 处 理 。 这 种 方法 的 一 个 缺点 就 在 
于 要 确定 哪些 样 例 需 要 进行 剔除 。 但 是 ， 在 选择 剔除 的 样 例 中 可 能 携 帝 
了 剩余 样 例 中 并 不 包含 的 有 价值 信息 。 


上 述 问题 的 一 种 解决 办 法 ， 就 是 选择 那些 离 决 策 边 界 较 远 的 样 例 进行 删 
除 。 假 定 我 们 有 一 个 数据 集 ， 其 中 有 50 例 信用 卡其 诈 交 易 和 5000 例 合法 
交易 。 如 果 我 们 想 要 对 合法 交易 样 例 进 行 欠 抽样 处 理 ， 使 得 这 两 类 数据 
比较 均衡 的 话 ， 那 么 我 们 就 需要 去 挥 4950 个 样 例 ， 而 这 些 样 例 中 可 能 包 
含 很 多 有 价值 的 信息 。 这 看 上 去 有 些 极 疾 ， 因 此 有 一 种 蔡 代 的 集 略 就 是 




















使 用 反例 类 别 的 欠 抽 样 和 正 例 类 别 的 过 抽样 相 混 合 的 方法 。 


要 对 正 例 类 别 进行 过 抽样 ， 我 们 可 以 复制 已 有 样 例 或 者 加 入 与 已 有 样 例 
相似 的 点 。 一 种 方法 是 加 入 已 有 数据 点 的 插值 点 ， 但 古 这 种 做 法 可 能 会 
导致 过 拟 合 的 问题 。 


7.8 ”本章 小 结 


集成 方法 通过 组 合 多 个 分 类 器 的 分 类 结果 ， 获 得 了 比 简单 的 单 分 类 器 更 
好 的 分 类 结果 。 有 一 些 利用 不 同 分 类 器 的 集成 方法 ， 但 是 本 章 只 介绍 了 
那些 利用 同一 类 分 类 需 的 集成 方法 。 


多 个 分 类 器 组 合 可 能 会 进一步 凸显 出 单 分 类 器 的 不 足 ， 比 如 过 拟 合 问 
题 。 如 果 分 类 器 之 间 差 别 显著 ， 那 么 多 个 分 类 器 组 合 就 可 能 会 缓解 这 一 
0 
“ 同 。 


本 章 介绍 的 两 种 集成 方法 是 bagging 和 boosting。 在 bagging 中 ， 是 通过 随 
机 抽样 的 人 蔡 换 方式 ， 得 到 了 与 原始 数据 集 规模 一 样 的 数据 集 。 而 
boosting 在 bagging 的 思路 上 更 进 了 一 步 ， 它 在 数据 集 上 顺序 应 用 了 多 个 
不 同 的 分 类 器 。 男 一 个 成 功 的 集成 方法 就 是 随机 森林 ， 但 是 由 于 随机 森 
林 不 如 AdaBoost 流 行 ， 所 以 本 书 并 没有 对 它 进 行 介 绍 。 


本 章 介 绍 了 boosting 方 法 中 最 流行 的 一 个 称 为 AdaBoost 的 算法 。 

AdaBoost 以 弱 学 习 右 作为 基 分 类 器 ， 并 且 输 入 数据 ， 使 其 通过 权重 问 量 
进行 加 权 。 在 第 一 次 迭代 当中 ， 所 有 数据 都 等 权重 。 但 是 在 后 续 的 迭代 
当中 ， 前 次 迭代 中 分 错 的 数据 的 权重 会 增 大 。 这 种 针对 错误 的 调节 能 
正 是 AdaBoost 的 长 处 。 


本 章 以 单 层 决 策 树 作为 弱 学 习 器 构建 了 AdaBoost 分 类 需 。 实 际 上 ， 
AdaBoost 函 数 可 以 应 用 于 任意 分 类 器 ， 只 要 该 分 类 圳 能 够 处 理 加 权 数 据 
即 可 。AdaBoost 算 法 十 分 强大 ， 它 能 够 快速 处 理 其 他 分 类 器 很 难处 理 的 
数据 集 。 


非 均衡 分 类 问题 是 指 在 分 类 器 训练 时 正 例 数目 和 反例 数目 不 相等 “相差 
很 大 ) 。 该 问题 在 错 分 正 例 和 反例 的 代价 不 同时 也 存在 。 本 章 不 仅 考察 
了 一 种 不 同 分 类 器 的 评价 方法 一 一 ROC 曲 线 ， 还 介绍 了 正确 率 和 召回 率 
这 两 种 在 类 别 重要 性 不 同时 ， 度 量 分 类 咽 性 能 的 指标 。 


本 章 介 绍 了 通过 过 抽样 和 有 抽样 方法 来 调节 数据 集中 的 正 例 和 反例 数 
目 。 另 外 一 种 可 能 更 好 的 非 均衡 问题 的 处 理 方法 ， 就 是 在 训练 分 类 器 时 
将 错误 的 代价 考虑 在 内 。 


























到 目前 为 止 ， 我 们 介绍 了 一 系列 强大 的 分 类 技术 。 本 章 是 分 类 部 分 的 最 
后 一 章 ， 接 下 来 我 们 将 进入 另 一 类 监督 学 习 算 法 一 一 回归 方法 ， 这 也 将 
完善 我 们 对 监督 方法 的 学 习 。 回 归 很 像 分 类 ， 但 是 和 分 类 输出 标 称 型 类 
别 值 不 同 的 是 ， 回 归 方法 会 预测 出 一 个 连续 值 。 








第 二 部 分 ”利用 回归 预测 数值 型 数据 


本 书 的 第 二 部 分 由 第 8 章 和 第 9 章 组 成 ， 主 要 介绍 了 回归 方法 。 回 归 是 第 
1-7 章 的 监督 学 习 方 法 的 延续 。 前 面 说 过 ， 监 督学 习 指 的 是 有 目标 变量 
或 预测 目标 的 机 器 学 习 方 法 。 回 归 与 分 类 的 不 同 ， 就 在 于 其 目标 变量 是 
连续 数值 型 。 


第 8 章 介绍 了 线性 回归 、 局 部 加 权 线 性 回归 和 收缩 方法 。 第 9 章 则 借用 了 
第 3 章 树 构建 的 一 些 思想 并 将 其 应 用 于 回归 中 ， 从 而 得 到 了 树 回 归 。 




















第 8 革 ”预测 数值 型 数据 : 回归 


本 章 内 容 


。 线性 回归 

。 局 部 加 权 线 性 回归 

。 上 岭 回 归 和 逐步 线性 回归 
。 预测 鲍鱼 年 龄 和 玩具 售 价 


本 书 前 面 的 章节 介绍 了 分 类 ， 分 类 的 目标 变量 是 标 称 型 数据 ， 而 本 章 将 
会 对 连续 型 的 数据 做 出 预测 。 读 者 很 可 能 有 这 样 的 疑问 :“ 回 归 能 用 来 
做 些 什么 呢 ? ”。 我 的 观点 是 ， 回 归 可 以 做 任何 事情 。 然 而 大 多 数 公司 
各 着 使 用 回归 法 做 一 些 比较 沉 癌 的 事情 ， 例 如 销售 量 预 测 或 者 制造 缺陷 
预测 。 我 最 近 看 到 一 个 比较 有 新 意 的 应 用 ， 束 古 预 测 名 人 的 离婚 率 。 


本 章 首 先 介绍 线性 回归 ， 包 括 其 名 称 的 由 来 和 Python 实现 。 在 这 之 后 引 
入 了 局 部 平滑 技术 ， 分 析 如 何 更 好 地 拟 合 数据 。 接 下 来 ， 本 章 将 探讨 回 
归 在 “从 拟 合 ” 情 况 下 的 缩减 〈shrinkage) 技术 ， 探 讨 偏差 和 方差 的 概 

念 。 最 后 ， 我 们 将 融合 所 有 技术 ， 预 测 鲍鱼 的 年 龄 和 玩具 的 售 价 。 此 外 
为 了 获取 一 些 玩 具 的 数据 ， 我 们 还 将 使 用 Python 来 做 一 些 采 集 的 工作 。 
这 一 草 的 内 容 会 十 分 丰 军 。 














8.1 用 线性 回归 找到 最 佳 拟 合 且 做 
线性 回归 


优点 结果 易于 理解 ， 计 算 上 不 复杂 。 
缺点 : 对 非 线 性 的 数据 拟 合 不 好 。 
适用 数据 类 型 : 数值 型 和 标 称 型 数据 。 


回归 的 目的 是 预测 数值 型 的 目标 值 。 最 直接 的 办 法 是 依据 输入 写 出 一 个 
0 i 0 
这 么 计算 : 


HorsePower = 0.0015*annualSalary - 0.99*hoursListeningToPublicRadio 


这 就 是 所 谓 的 回归 方程 (regression equation ) ， 其 中 的 0.0015 和 -0.99 称 
作 回 归 系 数 (regression weights)， 求 这 些 回归 系数 的 过 程 就 是 回归 。 
一 旦 有 了 这 些 回归 系数 ， 再 给 定 输 入 ， 做 预测 束 非 常 容易 了 。 具 体 的 做 
6 再 将 结果 全 部 加 在 一 起 ， 就 得 到 了 预测 





1. 此 处 的 回归 系数 是 一 个 向 量 ， 输 入 也 是 向 量 ， 这 些 运 算 也 就 是 求 出 二 者 的 内 积 。 一 一 译 者 注 


说 到 回归 ， 一 般 都 是 指 线性 回归 (linear regression) ， 所 以 本 章 里 的 回 
归 和 线性 回归 代表 同一 个 意思 。 线 性 回归 意味 着 可 以 将 输入 项 分 别 乘 以 
一 些 和 常量 ， 再 将 结果 加 起 来 得 到 输出 。 需 要 说 明 的 是 ， 存 在 男 一 种 称 为 
非 线 性 回归 的 回归 模型 ， 该 模型 不 认同 上 面 的 做 法 ， 比 如 认为 输出 可 能 
是 输入 的 乘积 。 这 样 ， 上 面 的 功率 计算 公式 也 可 以 写 做 : 


HorsePower = 0.0015*annualSalary/hoursListeningToPublicRadio 

















这 就 是 一 个 非 线 性 回归 的 例子 ， 但 本 间 对 此 不 做 深入 讨论 。 
回归 的 一 般 方 法 


1. 收集 数据 : 采用 任意 方法 收集 数据 。 
2. 准备 数据 : 回归 需要 数值 型 数据 ， 标 称 型 数据 将 被 转 成 二 值 型 数 





据 。 
3. 分 析 数 据 : 绘 出 数据 的 可 视 化 二 维 图 将 有 助 于 对 数据 做 出 理解 和 分 
0 
为 对 比 。 
4. 训练 算法 : 找到 回归 系数 。 
5. 测试 算法 : 使 用 R: 或 者 预测 值 和 数据 的 拟 合 度 ， 来 分 析 模 型 的 效 
朱 


6. 使 用 算法 ， 使 用 回归 ， 可 以 在 给 定 输入 的 时 候 预 测 出 一 个 数值 ， 这 
是 对 分 类 方法 的 提升 ， 因 为 这 样 可 以 预测 连续 型 数据 而 不 仅仅 是 离 
散 的 类 别 标签 。 








“回归 ”一 词 的 来 历 


今天 我 们 所 知道 的 回归 是 由 达尔 文 〈Charles Darwin) 的 表 兄 第 
Francis Galton 发 明 的 。Galton 于 1877 年 完成 了 第 一 次 回归 预测 ， 目 
的 是 根据 上 一 代 吏 豆 种 子 〈 双 杀 ) 的 尺寸 来 预测 下 一 代 吏 豆 种 子 
(孩子 ) 的 尺寸 。Galton 在 大 量 对 象 上 应 用 了 回归 分 析 ， 甚 至 包括 
人 的 喘 高 。 他 注意 到 ， 如 果 双 杀 的 高 度 比 平均 高 度 高 ， 他 们 的 子女 
也 倾 回 于 比 平均 高 度 高 ， 但 尚 不 及 双 杀 。 孩 子 的 高 度 问 着 平均 高 度 
回 退 (回归 〉 。Galton 在 多 项 研究 上 都 注意 到 这 个 现象 ， 所 以 尽管 
0 
由?。 
应 当 怎 样 从 一 大 堆 数 据 里 求 出 回归 方程 呢 ? 假定 输入 数据 存放 在 矩阵 X 
中 ， 而 回归 系数 存放 在 同 量 w 中 。 那 么 对 于 给 定 的 数据 X1， 预 测 结果 将 
会 通过 玉 =“ 到 给 出 。 现 在 的 问题 是 ， 手 里 有 一 些 x 和 对 应 的 y， 怎 样 才 
能 找到 w 昵 ? 一 个 常用 的 方法 就 是 找 出 使 误差 最 小 的 w。 这 里 的 误差 是 指 
预测 y 值 和 真实 y 值 之 间 的 差 值 ， 使 用 该 误差 的 简单 昧 加 将 使 得 正 差 值 和 
负 差 值 相互 抵消 ， 所 以 我 们 采用 平方 误差 。 


平方 误差 可 以 写 做 : 


























更 


2》 
i=] 


T (y-Xw) 








用 矩阵 表示 还 可 以 写 做 -Xe"Y-Xxw) 。 如 果 对 w 求 导 ， 得 到 裤 
令 其 等 于 零 ， 解 出 w 如 下 : 


Dp 


w 上 方 的 小 标记 表示 ， 这 是 当前 可 以 估计 出 的 w 的 最 优 解 。 从 现 有 数据 上 
估计 出 的 w 可 能 并 不 是 数据 中 的 真实 w 值 ， 所 以 这 里 使 用 了 一 个 “ 帽 ?符号 
来 表示 它 仅 是 w 的 一 个 最 佳 估 计 。 


值得 注意 的 是 ， 上 述 公 式 中 包含 (xx)-:， 也 就 是 需要 对 算 阵 求 道 ， 因 此 
这 个 方程 只 在 逆 和 矩阵 存在 的 时 候 适 用 。 然 而 ， 和 矩阵 的 逆 可 能 并 不 存在 ， 
因此 必须 要 在 代码 中 对 此 作出 判断 。 


上 述 的 最 佳 w 求 解 是 统计 学 中 的 第 见 问题 ， 除 了 矩阵 方法 外 还 有 很 多 其 
他 方法 可 以 解决 。 通 过 调用 NumPy 库 里 的 矩阵 方法 ， 我 们 可 以 仅 使 用 几 
行 代 人 码 就 完成 所 需 功 能 。 该 方法 也 称 作 OLS， 意 思 是 “普通 最 小 二 乘 
法 ”(ordinary least squares) 。 


下 面 看 看 实际 效果 ， 对 于 图 8-1 中 的 散 点 图 ， 下 面 来 介绍 如 何 给 出 该 数 
所 的 最 佳 拟 合 直 线 。 
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图 8-1 ”从 ex0.txt 得 到 的 样 例 数据 


程序 清单 8-1 可 以 完成 上 述 功能 。 打 开 文 本 编辑 器 并 创建 一 个 新 的 文件 
regression.py， 添 加 其 中 的 代码 。 


程序 清单 8-1 标准 回归 函数 和 数据 导入 函数 


from numpy import * 


def loadDataSet (fileName): 
numFeat = len(open(fileName).readline().split('\t')) - 1 
dataMat = []; labelMat = [] 
fr = open(fileName) 
for line in fr.readlines(): 
lineArr =[] 
curLine = line.strip().split('\t') 
for i in range(numFeat ) : 


lineArr.append(float(curLine[i])) 

dataMat .append(lineArr) 

labelMat.append(float(curLine[-1])) 
return dataMat, labelMat 


def standRegres(xArr,yArr): 

xMat = mat(xArr); yMat = mat(yArr).T 

xTx = xMat.T*xMat 

if linalg.det(xTx) == 0.0: 
print "This matrix is singular, cannot do inverse" 
return 

ws = xTx.I * (xMat.T*yMat) 

return ws 





第 一 个 函数 loadpDataset () 与 第 7 瘟 的 同名 函数 是 一 样 的 。 该 函数 打开 一 
个 用 tab 键 分 隔 的 文本 文件 ， 这 里 仍然 默认 文件 每 行 的 最 后 一 个 值 是 目 
标 值 。 第 二 个 函数 standRegres() 用 来 计算 最 佳 拟 合 直线 。 该 函数 首先 
读 入 x 和 y 并 将 它们 保存 到 算 阵 中 ; 然后 计算 xx， 然 后 判断 它 的 行列 式 是 
售 为 堆 ， 如 果 行 列 式 为 零 ， 那 么 计算 逆 窍 阵 的 时 候 将 出 现 错误 。NumPy 
提供 一 个 线性 代数 的 库 linalg， 其 中 包含 很 多 有 用 的 函数 。 可 以 直接 调 
用 1inalg.det() 来 计算 行列 式 。 最 后 ， 如 果 行列 式 非 零 ， 计 算 并 返回 
w。 如果 没有 检查 行列 式 是 否 为 等 就 试图 计算 矩阵 的 逆 ， 将 会 出 现 错 
误 。NumPy 的 线性 代数 库 还 提供 一 个 函数 来 解 未 知 和 矩阵 ， 如 果 使 用 该 函 
数 ， 那 么 代码 ws=xTx.I * (xMat .T*yMat ) 应 写成 ws=linalg.solve(xTx，, 
xMat .T*yMatT ) 。 


下 面 看 看 实际 效果 ， 使 用 loadpataset () 将 从 数据 中 得 到 两 个 数组 ， 分 
别 存 放 在 xX 和 Y 中 。 与 分 类 算法 中 的 类 别 标 签 类 似 ， 这 里 的 Y 是 目标 值 。 
>>> import regression 


>>> from numpy import * 
>>> xArr,yArr=regression.loadDataSet('ex0.txt"') 











首先 看 前 两 条 数据 : 


>>> xArr[0:2] 
[[1.0, 0.067732000000000001], [1.0, 0.42781000000000002]] 





第 一 个 值 总 是 等 于 1.0， 即 xoe。 我 们 假定 侦 移 量 就 是 一 个 常数 。 第 二 个 
值 x1， 也 惑 是 我 们 图 中 的 横 坐 标 值 。 


现在 看 一 下 standRegres() 函 数 的 执行 效果 : 


>>> ws = regression,.standRegres(xArr,yArr) 
>>> ws 
matrix([[ 3.00774324], 

[ 1.69532264]]) 


变量 ws 存放 的 就 是 回归 系数 。 在 用 内 积 来 预测 y 的 时 候 ， 第 一 维 将 乘 以 
前 面 的 常数 x0， 第 二 维 将 乘 以 输入 变量 x1。 因 为 前 面 假定 了 x6=1， 所 以 
最 终 会 得 到 y=wsT0Jtws[1]*x1。 这 里 的 y 实 际 是 预测 出 的 ， 为 了 和 真实 的 
y 值 区 分 开 来 ， 我 们 将 它 记 为 yhat。 下 面 使 用 新 的 ws 值 计算 yHat: 


>>> xMat=mat (xArr) 
>>> yMat=mat (yArr) 
>>> yHat = xMat*ws 


现在 就 可 以 绘 出 数据 集散 点 图 和 最 佳 拟 合 直 线 图 : 


>>> import matplotlib.pyplot as pilt 

>>> fig = plt.figure() 

>>> ax = fig.add_subplot(111) 

>>> ax.scatter(xMat[:,1].flatten().A[0], yMat.T[:,0].flatten().A[0]) 
<matplotlib.collections.CircleCollection object at Ox04ED9D30> 





上 述 命令 创建 了 图 像 并 绘 出 了 原始 的 数据 。 为 了 绘制 计算 出 的 最 佳 拟 合 
直线 ， 需 要 绘 出 yHat 的 值 。 如 果 和 直线 上 的 数据 点 次 序 混乱 ， 绘 图 时 将 会 
出 现 问 题 ， 所 以 首先 要 将 点 按照 升 厅 排列 : 


>>> xCopy=xMat .copy() 

>>> xCopy .sort(0) 

>>> yHat=xCopy*ws 

>>> ax.plot(xCopy[:,1],yHat) 
[<matplotlib.1lines.Line2D object at Ox0343F570>] 
>>> plt.show() 


我 们 将 会 看 到 类 似 于 图 8-2 的 效果 图 。 
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图 8-2 ”ex0.txt 的 数据 集 与 它 的 最 佳 拟 合 直 线 


几乎 任 一 数据 集 都 可 以 用 上 述 方法 建立 模型 ， 那 么 ， 如 何 判 断 这 些 模型 
的 好 坏 呢 ? 比较 一 下 图 8-3 的 两 个 子 图 ， 如 果 在 两 个 数据 集 上 分 别 作 线 
性 回归 ， 将 得 到 完全 一 样 的 模型 〈 拟 合 直线 ) 。 显 然 两 个 数据 是 不 一 样 
的 ， 那 么 模型 分 别 在 二 者 上 的 效果 如 何 ? 我 们 当 如 何 比 较 这 些 效果 的 好 
坏 呢 ? 有 种 方法 可 以 计算 预测 值 yHat 序 列 和 真实 值 y 序 列 的 匹配 程度 ， 
那 就 是 计算 这 两 个 序列 的 相关 系数 。 
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图 8-3 ”具有 相同 回归 系数 (0 和 2.0) 的 两 组 数据 。 上 图 的 相关 系数 是 
0.58， 而 下 图 的 相关 系数 是 0.99 


在 Python 中 ，NumPy 库 提供 了 相关 系数 的 计算 方法 : 可 以 通过 命令 
corrcoef(yEstimate， yActual) 来 计算 预测 值 和 真实 值 的 相关 性 。 下 面 


我 们 就 在 前 面 的 数据 集 上 做 个 实验 。 
与 之 前 一 样 ， 痛 先 计算 出 y 的 预测 值 yMat: 


>>> yHat = xMat*ws 








再 来 计算 相关 系数 〈 这 时 需要 将 yMat 转 置 ， 以 保证 两 个 向 量 都 是 行 向 


可 


>>> corrcoef(yHat.T, yMat) 
array([[ 1. ,， 0.98647356], 
[ 0.98647356, 1. ]]) 


该 矩阵 包含 所 有 两 两 组 合 的 相关 系数 。 可 以 看 到 ， 对 角 线 上 的 数据 是 
1.0， 因 为 yat 和 目 己 的 匹配 是 最 完美 的 ， 而 Yhat 和 yMat 的 相关 系数 为 
0.98。 


最 佳 拟 合 直线 方法 将 数据 视 为 直线 进行 建 模 ， 具 有 十 分 不 错 的 表现 。 但 
古 图 8-2 的 数据 当中 似乎 还 存在 其 他 的 潜在 模式 。 那 么 如 何 才 能 利用 这 
CR ee PI eg oy 
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8.2 局 部 加 权 线 性 回归 


线性 回归 的 一 个 问题 是 有 可 能 出 现 欠 拟 合 现 象 ， 因 为 它 求 的 是 具有 最 小 
均 方 误差 的 无 仿 估 计 。 显 而 易 见 ， 如 末 模 型 欠 拟 合 将 不 能 取得 最 好 的 预 
-。 所 以 有 些 方法 允许 在 估计 中 引入 一 些 偏 差 ， 从 而 降低 预测 的 均 
方 误差 。 











其 中 的 一 个 方法 是 局 部 加 权 线 性 回归 (Locally Weighted Linear 
Regression， 为 LWLR) 。 在 该 算法 中 ， 我 们 给 待 预测 点 附近 的 每 个 点 
赋予 一 定 的 权重 ， 然 后 与 8.1 市 类 似 ， 在 这 个 子 集 上 基于 最 小 均 方差 来 
进行 普通 的 回归 。 与 KNN 一 样 ， 这 种 算法 每 次 预测 均 需 要 事先 选取 出 对 
应 的 数据 子 集 。 该 算法 解 出 回归 系数 w 的 形式 如 下 : 














w=(XWX) XWy 


其 中 w 是 一 个 矩阵 ， 用 来 给 每 个 数据 点 赋予 权重 。 


LWLR 使 用 “ 核 ”〈 与 文 持 癌 量 机 中 的 核 类 似 ) 来 对 附近 的 点 赋予 更 高 的 
人 核 的 类 型 可 以 自由 选择 ， 最 钊 用 的 核 就 是 高 斯 核 ， 高 斯 核对 应 
JJ 人权 [下 : 





| (71) 
|。 


| 一 | | 
Ww(i,i) = exp| 
| 一 2 人 





1. 读者 要 注意 区 分 这 里 的 权重 W 和 回归 系数 w; 与 KNN 一 样 ， 该 加 权 模 型 认为 样本 点 距离 越 近 ， 越 可 能 符合 同一 个 线性 模型 。 一 一 译 者 注 


这 样 就 构建 了 一 个 只 含 对 角 元 素 的 权重 矩阵 w， 并 且 点 x 与 xe 越 

近 ，w(i,1) 将 会 越 大 。 上 述 公式 包含 一 个 需要 用 户 指定 的 参数 k， 它 决 
定 了 对 附近 的 点 赋予 多 大 的 权重 ， 这 也 是 使 用 LWLR 时 唯一 需要 考虑 的 
参数 ， 在 图 8-4 中 可 以 看 到 参数 k 与 权重 的 关系 。 
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图 8-4 点 的 权重 图 〈 假 定 我 们 正 预 测 的 点 是 x = 9.5) ， 最 上 面 的 
第 二 个 图 显示 了 当 k = 6.5 时 ， 大 部 分 的 数据 都 用 于 
训练 回归 模型 ， 而 最 下 面 的 图 显示 当 k = 9.91 时 ， 仅 有 很 少 的 局 部 点 
被 用 于 训练 回归 模型 


下 面 看 看 模型 的 效果 ， 打 开 文 本 编辑 如 ， 将 程序 清单 8-2 的 代码 添加 到 
文件 regression ， py 中 o 


程序 清单 8-2 局 部 加 权 线 性 回归 函数 


def lwlr(testPoint,xArr,yArr,k=1.0): 
xMat = mat(xArr); yMat = mat(yArr).T 








m = shape(xMat)[90] 
weights = be 
#@@ ”创建 对 角 和 矩阵 
for j in Van dec 

#@ 权重 值 大 小 以 指数 级 衰减 

diffMat = testPoint - xMat[j,:] 

weights[j,j] = exp(diffMat*diffMat.T/(-2.0*k**2)) 
xTx = xMat.T * (weights * xMat) 
if linalg.det(xTx) == 0.0: 














print "This matrix is singular, cannot do inverse" 
return 

ws = xTx.I * (xMat.T * (weights * yMat)) 
return testPoint * ws 

def JwlrTest(testArr,xArr,yArr,k=1.0): 

m = shape(testArr)[0] 

yHat = zeros(m) 

for i in range(m): 
yHat[i] = lwlr(testArr[i],xArr,yArr,k) 

return yHat 


程序 清单 8-2 中 代码 的 作用 是 ， 给 定 x 空 间 中 的 任意 一 点 ， 计 算出 对 应 的 
预测 值 yhat。 函 数 lwlr() 的 开头 与 程序 清单 8-1 类 似 ， 读 入 数据 并 创建 所 
需 和 矩阵， 之 后 创建 对 角 权 重 矩 阵 weights@@。 权 重 和 矩阵 是 一 个 方 阵 ， 阶 

数 等 于 样本 点 个 数 。 也 就 是 说 ， 该 矩阵 为 每 个 样本 点 初始 化 了 一 个 权 

重 。 接 着 ， 算 法 将 遍历 数据 集 ， 计 算 每 个 样本 点 对 应 的 权重 值 : 随 着 样 
本 点 与 竺 预测 点 距离 的 递增 ， 权重 将 以 指数 级 豪 减 @@。 输 入 参数 k 控 制 
衰减 的 速度 。 与 之 前 的 函数 standRegress() 一 样 ， 在 权重 矩阵 计算 完毕 
后 ， 就 可 以 得 到 对 回归 系数 ws 的 一 个 估计 。 


程序 清单 8-2 中 的 另 一 个 函数 是 lwlrTest()， 用 于 为 数据 集中 每 个 点 调 
用 lwlr()， 这 有 助 于 求解 kK 的 大 小 。 


下 面 看 看 实际 效果 ， 将 程序 清单 8- 2 的 代码 加 入 到 regression.py 中 并 保 
存 ， 然 后 在 Python 提示 符 下 输入 如 下 命令 : 


>>> reload(regression) 
<module 'regression' from 'regression.py'> 


如 果 需 要 重新 载 入 数据 集 ， 则 输入 : 


>>> xArr,yArr=regression.loadDataSet('ex0.txt') 





可 以 对 单 点 进行 估计 : 


>>> yArr[90] 

3.1765129999999999 

>>> regresslion.Jwlr(xArr[0],xArr,yArr,1.0) 
matrix([[ 3.12204471]] ) 

>>> regresslion.Jwlr(xArr[90],xArr,yArr,0.001) 
matrix([[ 3.20175729]]) 


为 了 得 到 数据 集 里 所 有 点 的 估计 ， 可 以 调用 lwLrTest() 函 数 : 


>>> yHat = regression.lwlrTest(xArr, xArr, yArr,O0.003) 


下 而 经 会 出 这 些 估 计 值 和 原始 值 ， 看 看 yHat 的 拟 合 效 果 。 所 用 的 绘图 函数 
需要 将 数据 点 按 序 排列 ， 首 先 对 xArr 排 序 : 


xMat=mat (xArr) 
>>> SrtInd = xMat[:,1]. Rd 
>>> xSort= xMat [srtInd][:, 


然后 用 Matplotlib 绘 图 : 


>>> fig = plt.figure() 

>>> ax = fig.add_ subplot(111) 

>>> ax.plot(xSort[:,1],yHat[srtIind]) 

[<matplotlib.1lines.Line2D object at Ox03639550>] 

>>> ax.scatter(xMat[:,1].flatten().A[0], mat(yArr).T.flatten().A[0] ,， s=2,c='red' 
<matplotlib.collections.PathCollection object at Ox03859110> 

>>> plt.show() 


可 以 观察 到 如 图 8-5 所 示 的 效果 。 图 8-5 给 出 了 k 在 三 种 不 同 取 值 下 的 结果 
图 。 当 k = 1.0 时 权重 很 大 ， 如 同 将 所 有 的 数据 视 为 等 权重 ， 得 出 的 最 
佳 拟 合 直 线 与 标准 的 回归 一 致 。 使 用 k = 6.61 得 到 了 非常 好 的 效果 ， 抓 
住 了 数据 的 潜在 模式 。 下 图 使 用 k = .603 纳入 了 太 多 的 噪声 点 ， 拟 合 
的 直线 与 数据 点 过 于 贴近 。 所 以 ， 图 8-5 中 的 最 下 图 是 过 拟 合 的 一 个 例 
A 下 一 节 将 对 过 拟 合 和 人 欠 拟 合 进 行 
量化 分 析 。 
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图 8-5 ”使 用 3 种 不 同 的 平滑 值 绘 出 的 局 部 加 权 线 性 回归 结果 。 上 图 中 
的 平滑 参数 k = 1.0， 中 图 k = 0.01， 下 图 k = 0.003。 可 以 看 到 ，k = 
1.9 时 的 模型 效果 与 最 小 二 乘法 差不多 ，k = 9.91 时 该 模型 可 以 挖 出 数 
0 
合 现 


局 部 加 权 线 性 回归 也 存在 一 个 问题 ， 即 增加 了 计算 量 ， 因 为 它 对 每 个 点 
做 预测 时 都 必须 使 用 整个 数据 集 。 从 图 8-5 可 以 看 出 ，*k *= 0.01 时 可 以 
得 到 很 好 的 估计 ， 但 是 同时 看 一 下 图 8-4 中 K = -0.01 的 情况 ， 就 会 发 现 大 
多 数据 点 的 权重 都 接近 零 。 如 果 避 免 这 些 计算 将 可 以 减少 程序 运行 时 
间 ， 从 而 缓解 因 计 算 量 增加 带 来 的 问题 。 


到 此 为 止 ， 我们 已 经 介绍 了 找 出 最 佳 拟 合 直 线 的 两 种 方法 ， 下 面 用 这 些 
技术 来 预测 鲍鱼 的 年 龄 。 


8.3 示例: 预测 鲍鱼 的 年 龄 


接 下 来 ， 我 们 将 回归 用 于 真实 数据 。 在 data 目 录 下 有 一 份 来 自 UCI 数 据 
集合 的 数据 ， 记 录 了 鲍鱼 《一 种 介 元 类 水 生动 物 ) 的 年 龄 。 鲍 鱼 年 龄 可 
以 从 鲍鱼 这 的 层 数 推算 得 到 。 


在 regression.py 中 加 入 下 列 代码 : 


def rssError(yArr,yHatArr): 
return ((yArr-yHatArr)**2).sum() 


>>> abX,abY=regression.loadDataSet('abalone.txt') 

>>> yHat01i=regression.lwlrTest(abxX[0:99],abxX[0:99],abY[0:99],0.1) 
>>> yHat1i=regression.lwlrTest(abxX[0:99],abx[0:99],abY[0:99],1) 
>>> yHat10=regression.lwlrTest(abxX[0:99],abxX[0:99],abY[90:99],10) 





为 了 分 析 预 测 误差 的 大 小 ， 可 以 用 函数 rssError() 计 算出 这 一 指标 : 


>>> regresslion.rssError(abY[0:99],yHato1.T) 
56.842594430533545 
>>> regression.rssError(abY[0:99],yHat1.T) 
429.89056187006685 
>>> regression.rssError(abY[0:99],yHat10.T) 
549.11817088257692 


可 以 看 到 ， 使 用 较 小 的 核 将 得 到 较 低 的 误 普 。 那 么 ， 为 什么 不 在 所 有 数 
据 集 上 痢 使 用 最 小 的 核 呢 ? 这 是 因为 使 用 最 小 的 核 将 造成 过 拟 合 ， 对 新 
数据 不 一 定 能 达到 最 好 的 预测 效果 。 下 面 就 来 看 看 它们 在 新 数据 上 的 表 
现 : 


>>> yHat01i=regression.lwlrTest(abxX[100:199],abxX[0:99],abY[0:99],0.1) 
>>> regression.rssError(abY[100:199],yHato01.T) 

25619.926899338669 

>>> yHat1i=regression.lwlrTest(abX[100:199],abx[0:99],abY[0:99],1) 
>>> regression.rssError(abY[100:199],yHat1.T) 

573.5261441895808 

>>> yHat10=regression.lwlrTest(abxX[100:199],abxX[0:99],abY[0:99],10) 
>>> regression.rssError(abY[100:199],yHat10.T) 

517.57119053830979 


从 上 述 结果 可 以 看 到 ， 在 上 面 的 三 个 参数 中 ， 核 大 小 等 于 10 时 的 测试 误 
差 最 小 ， 但 它 在 训练 集 上 的 误差 却 是 最 大 的 。 接 下 来 再 来 和 简单 的 线性 
回归 做 个 比较 : 


>>> ws = regression.standRegres(abX[0:99],abY[0:99]) 


>>> yHat=mat (abX[100:199])*ws 
>>> regression.rssError(abY[100:199],yHat.T.A) 


518.63631532450131 


简单 线性 回归 达到 了 与 局 部 加 权 线 性 回归 类 似 的 效果 。 这 也 表明 一 点 ， 
必须 在 未 知 数据 上 比较 效果 才能 选取 到 最 佳 模型 。 那 么 最 佳 的 核 大 小 是 
10 吗 ? 或 许 是 ， 但 如 宁 想 得 到 更 好 的 效果 ， 应 该 用 10 个 不 同 的 样本 集 做 
10 次 测试 来 比较 结果 。 


本 例 展示 了 如 何 使 用 局 部 加 权 线性 回归 来 构建 模型 ， 可 以 得 到 比 普通 线 
性 回归 更 好 的 效果 。 局 部 加 权 线性 回归 的 问题 在 于 ， 每 次 必须 在 整个 数 
据 集 上 运行 。 也 就 是 说 为 了 做 出 预测 ， 必 须 保存 所 有 的 训练 数据 。 下 面 
将 介绍 另 一 种 提高 预测 精度 的 方法 ， 并 分 析 它 的 优势 所 在 。 


8.4 擅 减 系 数 来 “理解 ?数据 


如 果 数 据 的 特征 比 样本 点 还 多 应 该 怎么 办 ? 是否 还 可 以 使 用 线性 回归 和 
之 前 的 方法 来 做 预测 ? 答案 是 否定 的 ， 即 不 能 再 使 用 前 面 介绍 的 方法 。 
这 是 因为 在 计算 (xx)-: 的 时 候 会 出 错 。 


如 果 特 征 比 样本 点 还 多 (Cn > m) ， 也 就 是 说 输入 数据 的 矩阵 x 不 是 满 秩 
官 阵 。 非 满 秩 窍 阵 在 求 逆 时 会 出 现 问题 。 


为 了 解决 这 个 问题 ， 统 计 学 家 引入 了 岭 回 归 (ridge ”regression) 的 概 
念 ， 这 就 是 本 节 将 介绍 的 第 一 种 绚 减 方法 。 接 着 是 lasso 法 ， 该 方法 效果 
很 好 但 计算 复杂 。 本 节 最 后 介绍 了 第 二 种 缩减 方法 ， 称 为 前 向 逐步 回 
归 ， 可 以 得 到 与 lasso 差 不 多 的 效果 ， 且 更 容易 实现 。 


8.4.1 岭 回归 


简单 说 来 ， 岭 回归 就 是 在 矩阵 xx 上 加 一 个 XI 从 而 使 得 矩阵 非 奇异 ， 进 而 
能 对 xxX + 和 XI 求 逆 。 其 中 矩阵 I 是 一 个 mxm 的 单位 和 矩阵， 对 角 线 上 元 素 全 
为 1， 其 他 元 素 全 为 0。 而 ^ 是 一 个 用 户 定义 的 数值 ， 后 面 会 做 介绍 。 在 
这 种 情况 下 ， 回 归 系 数 的 计算 公式 将 变 成 : 


























W=(X'X+AD XYy 


岭 回 归 最 先 用 来 处 理 特征 数 多 于 样本 数 的 情况 ， 现 在 也 用 于 在 估计 中 加 
入 偏差 ， 从 而 得 到 更 好 的 估计 。 这 里 通过 引入 A 来 限制 了 所 有 w 之 和 ”， 
通过 引入 该 惩 庆 项， 能 够 减少 不 重要 的 参数 ， 这 个 技术 在 统计 学 中 也 叫 
做 缩减 (shrinkage) 。 


岭 回 归 中 的 岭 是 什么 ? 

岭 回 归 使 用 了 单位 矩阵 乘 以 常量 \， 我 们 观察 其 中 的 单位 矩阵 TI， 可 
以 看 到 值 1 贯 穿 整个 对 角 线 ， 其 余 元 素 全 是 0。 形 象 地 ， 在 0 构成 的 
平面 上 有 一 条 1 组 成 的 “ 岭 ?， 这 就 是 上 怜 回归 中 的 “ 岭 ” 的 由 来 。 


缩减 方法 可 以 去 掉 不 重要 的 参数 ， 因 此 能 更 好 地 理解 数据 。 此 外 ， 与 简 
单 的 线性 回归 相 比 ， 缩 减法 能 取得 更 好 的 预测 效果 。 











与 前 几 章 里 训练 其 他 参数 所 用 的 方法 类 似 ， 这 里 通过 预测 误差 最 小 化 得 
到 A: 数据 获取 之 后 ， 首 先 抽 一 部 分 数据 用 于 测试 ， 剩 余 的 作为 训练 集 
用 于 训练 参数 w。 训 练 完毕 后 在 测试 集 上 测试 预测 性 能 。 通 过 选取 不 同 
的 》 来 重复 上 述 测 斌 过程， 最 终 得 到 一 个 使 预测 误 兰 最 小 的 和 。 


下 面 看 看 实际 效果 ， 打 开 regression.py 文 件 并 添加 程序 清单 8-3 的 代 
但 。 


程序 清单 8-3” 怜 回 归 


def ridgeRegres(xMat,yMat,1am=0.2): 
xTx = xMat.T*xMat 
denom = xTx + eye(shape(xMat)[1])*lam 
if linalg.det(denom) == 0.0: 
print "This matrix is singular, cannot do inverse" 





return 
ws = denom.I * (xMat.T*yMat) 
return ws 


def ridgeTest(xArr,yArr): 

xMat = mat(xArr); yMat=mat(yArr).T 

yMean = mean(yMat,o0) 

#@ ”数据 标准 化 

yMat = yMat - yMean 

xMeans = mean(xMat,o0) 

xVar = var(xMat,90) 

xMat = (xMat - xMeans)/xVar 

numTestPts = 30 

wMat = zeros((numTestPts, shape(xMat)[1])) 

for i in range(numTestPts): 
ws = ridgeRegres(xMat,yMat,exp(i-10)) 
wMat[i,:]=ws.T 

return wMat 




















程序 清单 8-3 中 的 代码 包含 了 两 个 函数 : 函数 ridgeRegres() 用 于 计算 回 
归 系 数 ， 而 函数 ridgeTest() 用 于 在 一 组 \ 上 测试 结果 。 


第 一 个 函数 ridgeRegres() 实 现 了 给 定 lambda 下 的 岭 回 归 求 解 。 如 果 没 指 
定 lambda， 则 默认 为 0.2。 由 于 lambda 是 Python 保 留 的 关键 字 ， 因 此 程序 
中 使 用 了 1lam 来 代替 。 该 函数 首先 构建 符 阵 XxXx， 然 后 用 lam 乘 以 单位 矩阵 
(可 调用 NumPy 库 中 的 方法 eye() 来 生成 ) 。 在 普通 回归 方法 可 能 会 产 
生 错 误 时 ， 岭 回归 仍 可 以 正常 工作 。 那 么 是 不 是 就 不 再 需要 检查 行列 式 
是 否 为 零 ， 对 吗 ? 不 完全 对 ， 如 果 lambda 设 定 为 0 的 时 候 一 样 可 能 会 产 
生 错 误 ， 所 以 这 里 仍 需 要 做 一 个 检查 。 最 后 ， 如 果 和 矩阵 非 奇 异 就 计算 回 
归 系 数 并 返回 。 








为 了 使 用 岭 回归 和 缩减 技术 ， 首 移 需 要 对 特征 做 标准 化 处 理 。 回 忆 一 

下 ， 第 2 章 已 经 用 过 标准 化 处 理 技术 ， 使 每 维特 征 具 有 相同 的 重要 性 

(不 考虑 特征 代表 什么 〉。 程 序 清早 8-3 中 的 第 二 个 函数 ridgeTest() 开 
0 i 
除 以 方差 @。 


处 理 完成 后 就 可 以 在 30 个 不 同 的 lambda 下 调用 ridgeRegres() 函 数 。 注 
意 ， 这 里 的 lambda 应 以 指数 级 变化 ， 这 样 可 以 看 出 lambda 在 取 非 常 小 的 
值 时 和 取 非 常 大 的 值 时 分 别 对 结果 造成 的 影响。 最 后 将 所 有 的 回归 系数 
输出 到 一 个 矩阵 并 返回 。 


下 和 面 看 一 下 鲍鱼 数据 集 上 的 运行 结果 。 


>>> reload(regression) 
>>> abX,abY=regression.loadDataSet('abalone.txt') 
>>> ridgeweights=regression.ridgeTest(abxX,abY) 














这 样 就 得 到 了 30 个 不 同 lambda 所 对 应 的 回归 系数 。 为 了 看 到 缩减 的 效 
果 ， 在 Python 提示 符 下 输入 如 下 代码 ; 


>>> import matplotlib.pyplot as pilt 
>>> fig = plt.figure() 

>>> ax = fig.add_ subplot(111) 

>>> ax.plot(ridgeweights) 

>>> plt.show() 


运行 之 后 应 该 看 到 一 个 类 似 图 8-6 的 结果 图 ， 该 图 绘 出 了 回归 系数 与 
lo0g( 和 ) 的 关系 。 在 最 左边 ， 即 和 最 小 时 ， 可 以 得 到 所 有 系数 的 原始 值 
(与 线性 回归 一 致 ) ;而 在 右边 ， 系 数 全 部 缩减 成 0; 在 中 间 部 分 的 茶 
值 将 可 以 取得 最 好 的 预测 效果 。 为 了 定量 地 找到 最 佳 参数 值 ， 还 需要 进 
行 交 又 验 证 。 男 外 ， 要 判断 哪些 变量 对 结果 预测 最 具有 影响 力 ， 在 图 8- 
6 中 观察 它 们 对 应 的 系数 大 小 束 可 以 。 
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图 8-6 ”上 岭 回 归 的 回归 系数 变化 图 。X 非 常 小 时 ， 系 数 与 普通 回归 一 
样 。 而 和 非常 大 时 ， 所 有 回归 系数 缩减 为 0。 可 以 在 中 间 某 处 找到 使 得 
预测 的 结果 最 好 的 和 值 


还 有 一 些 其 他 缩减 方法 ， 如 lasso、LAR、PCA 回 归 : 以 及 子 集 选 择 等 。 与 


岭 回归 一 样 ， 这 些 方法 不 仅 可 以 提高 预测 精确 率 ， 而 且 可 以 解释 回归 系 
数 。 下 面 将 对 lasso 方 法 稍 作 介 绍 。 


1. Trevor Hastie, Robert Tibshirani, and Jerome Friedman, The Elements of Statistical Learning: Data Mining, Infer- ence, and Prediction, 2nd ed. (Springer, 2009). 


8.4.2 lasso 


不 难 证 明 ， 在 增加 如 下 约束 时 ， 普 通 的 最 小 二 乘法 回归 会 得 到 与 岭 回 归 
的 一 样 的 公式 : 


上 式 限 定 了 所 有 回归 系数 的 平方 和 不 能 大 于 入 。 使 用 普通 的 最 小 二 乘法 
回归 在 当 两 个 或 更 多 的 特征 相关 时 ， 可 能 会 得 出 一 个 很 大 的 正 系数 和 一 


人 正 是 因为 上 述 限 制 条 件 的 存在 ， 使 用 岭 回 归 可 以 避免 


这 个 问题 。 


与 岭 回 归 类 似 ， 另 一 个 缩减 方法 lasso 也 对 回归 系数 做 了 限定 ， 对 应 的 约 
束 条 件 如 下 : 


唯一 的 不 同 点 在 于 ， 这 个 约束 条 件 使 用 绝对 值 取代 了 平方 和 。 虽 然 约束 
形式 只 是 稍 作 变化 ， 结 果 却 大 相 径 庭 : 在 和 足够 小 的 时 候 ， 一 些 系 数 会 
因此 被 迫 缩减 到 0， 这 个 特性 可 以 帮助 我 们 更 好 地 理解 数据 。 这 两 个 约 
束 条 件 在 公式 上 看 起 来 相差 无 几 ， 但 细微 的 变化 却 极 大 地 增加 了 计算 复 
杂 度 (为 了 在 这 个 新 的 约束 条 件 下 解 出 回归 系数 ， 需 要 使 用 二 次 规划 算 
i 站 绍 一 个 更 为 简单 的 方法 来 得 到 结果 ， 该 方法 叫做 前 同 逐 
步 回 归 


8.4.3 ”前 问 逐 步 回 归 

前 问 逐 步 回 归 算 法 可 以 得 到 与 lasso 差 不 多 的 效果 ， 但 更 加 简单。 它 属于 
一 种 贪心 算法 ， 即 每 一 步 都 尽 可 能 减少 误 兰 。 一 开始 ， 所 有 的 权重 都 设 
为 1， 然 后 每 一 步 所 做 的 决策 是 对 某 个 权重 增加 或 减少 一 个 很 小 的 值 。 


该 算法 的 伪 代 码 如 下 所 示 : 


数据 标准 化 ， 使 其 分 布 满足 9 均值 和 单位 方差 
在 每 轮 欠 代 过 程 中 : 
























































设置 当前 最 小 误差 lJowestError 为 正 无 穷 
对 每 个 特征 : 
增 大 或 缩小 : 
改变 一 个 系数 得 到 一 个 新 的 W 
计算 新 W 下 的 误差 

















如 果 误 差 Error 小 于 当前 最 小 误差 lowestError: 设置 Wbest 等 于 当前 的 W 
将 W 设 置 为 新 的 Wbest 









































Rs 打开 regression.py 文 件 并 加 入 下 列 程序 清单 中 的 


程序 清单 8-4 前 同和 逐步 线性 回归 


def stagewise(xArr,yArr,eps=0.01,numIt=100): 


xMat = mat(xArr); yMat=mat(yArr).T 
yMean = mean(yMat,o0) 
yMat = yMat - yMean 
xMat = regularize(xMat) 
m,n=shape(xMat) 
returnMat = zeros((numIt,n)) 
ws = Zeros((n,1)); wsTest = ws.copy(); wsMax = ws.copy() 
for i in range(numIt): 
print ws.T 
lowestError = inf; 
for j in range(n): 
for sign in [-1,1]: 
wsTest = ws.copy() 
wsTest[j] += eps*sign 
yTest = xMat*wsTest 
rssE = rssError(yMat.A,yTest.A) 
If rssE < lowestError: 
lJowestError = rssE 
wsMax = wsTest 
ws = wsMax.copy() 
returnMat[i,:]=ws.T 
return returnMat 


程序 清单 8.4 中 的 函数 stagewise() 是 一 个 逐步 线性 回归 算法 的 实现 ， 它 
与 lasso 做 法 相近 但 计算 简单 。 该 函数 的 输入 包括 : 输入 数据 xArr 和 预测 
变量 yArr。 此 外 还 有 两 个 参数 : 一 个 是 eps， 表 示 每 次 从 代 需 要 调整 的 
步 长 ， 另 一 个 是 numIt， 表 示 代 次 数 。 


男 数 首先 将 输入 数据 转换 并 存 入 矩阵 中 ， 然 后 把 特征 按照 均值 为 0 方差 
为 1 进行 标准 化 处 理 。 在 这 之 后 创建 了 一 个 回 量 ws 来 保存 w 的 值 ， 并 且 为 
了 实现 贪心 算法 建立 了 ws 的 两 份 副本 。 接 下 来 的 优化 过 程 需要 进 代 

并 且 在 每 次 欠 代 时 都 打印 出 w 回 量 ， 用 于 分 析 算 法 执行 的 过 程 
I 效果。 


贪心 算法 在 所 有 特征 上 运行 两 次 for 循 环 ， 分 别 计 算 增 加 或 减少 该 特征 
对 误差 的 影响 。 这 里 使 用 的 是 平方 误差 ， 通 过 之 前 的 图 数 rssError() 得 
到 。 该 误差 初始 值 设 为 正 无 穷 ， 经 过 与 所 有 的 误差 比较 后 取 最 小 的 误 

差 。 整 个 过 程 循 环 欠 代 进 行 。 


下 面 看 一 下 实际 效果 ， 在 regression.py 里 输入 程序 清单 8-4 的 代码 并 保 
存 ， 然 后 在 Python 提示 符 下 输入 如 下 命令 : 


>>> reload(regression) 

<module 'regression' from 'regression.pyc'> 

>>> xArr,yArr=regression.loadDataSet('abalone.txt') 

>>> regression.stageWise(xArr,yArr,0.01,200) 

[[0. 0. 0. 0. 0. 0., 0. 0, ]] 

[[ 9 .0. 0. 0.01 0. 0. 0. 0. ]] 











[[ 9， 0. 0. 0.02 0. 0. 0. 0. ]] 
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[[ 0.04 ; 0.36]] 
[[ 6.065 0. 0.09 0.03 0.31 -0.64 90. 0.36]] 
[[ 0.04 0 0.09 0.03 0.31 -0.64 0 0.36]] 





上 述 结 末 中 值得 注意 的 是 wi 和 we 部 是 0， 这 表明 它们 不 对 目标 值 造成 任 
何 影响 ， 也 就 是 说 这 些 特征 很 可 能 是 不 需要 的 。 男 外 ， 在 参数 eps 设 置 
为 0.01 的 情况 下 ， 一 段 时 间 后 系数 就 已 经 饱和 并 在 特定 值 之 间 来 回 震 
荡 ， 这 是 因为 步 长 太 大 的 缘故 。 这 里 会 看 到 ， 第 一 个 权重 在 0.04 和 0.05 
之 间 来 回 震 荡 。 


下 面试 着 用 更 小 的 步 长 和 更 多 的 步 数 : 


>>> regression.stageWise(xArr,yArr,O0.001,5000) 
0 0 0 0 0 ， 








[[ 6， 9.]] 
[[ 9， 0. 0. 0.001 0. 0. 0. 0. ]] 
[[ 0. 0. 0. 0.002 0. 0. 0. 0. ]] 


[[ 0.044 -0.011 0.12 0.022 2.023 -0.963 -0.105 0.187]] 
[[ 0.043 -0.011 0.12 .022 2.023 -0.963 -0.105 0.187]] 
[[ 0.044 -0.011 0.12 0.022 2.023 -0.963 -0.105 0.187]] 


© 


接 下 来 把 这 些 结果 与 最 小 二 乘法 进行 比较 ， 后 者 的 结果 可 以 通过 如 下 代 
码 获得 : 


>>> xMat=mat (xArr) 

>>> yMat=mat (yArr).T 

>>> xMat=regression.regularize(xMat) 

>>> yM = mean(yMat,o0) 

>>> yMat = yMat - yM 

>>> weights=regression.standRegres(xMat,yMat.T) 

>>> weights.T 

matrix([[ 0.0430442 , -0.02274163, 0.13214087, 0.02075182, 2.22403814, 
-0.99895312, -0.11725427, 0.16622915]]) 


可 以 看 到 在 5000 次 迭代 以 后 ， 逐 步 线性 回归 算法 与 常规 的 最 小 二 乘法 效 
果 类 似 。 使 用 0.005 的 epsilon 值 并 经 过 1000 次 迭代 后 的 结果 参见 图 8-7。 
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图 8-7 ”鲍鱼 数据 集 上 执行 逐步 线性 回归 法 得 到 的 系数 与 迭代 次 数 间 的 
关系 。 逐 步 线性 回归 得 到 了 与 jasso 相 似 的 结果 ， 但 计算 起 来 更 加 简便 


逐步 线性 回归 算法 的 实际 好 处 并 不 在 于 能 绘 出 图 8-7 这 样 漂 亮 的 图 ， 主 
要 的 优点 在 于 它 可 以 帮助 人 们 理解 现 有 的 模型 并 做 出 改进 。 当 构建 了 一 
个 模型 后 ， 可 以 运行 该 算法 找 出 重要 的 特征 ， 这 样 就 有 可 能 及 时 集 止 对 
那些 不 重要 特征 的 收集 。 最 后 ， 如 采用 于 测试 ， 该 算法 每 100 次 迭代 后 
就 可 以 构建 出 一 个 模型 ， 可 以 使 用 类 似 于 10 折 交叉 验证 的 方法 比较 这 些 
模型 ， 最 终 选择 使 误差 最 小 的 模型 。 


当 应 用 缩减 方法 “如 逐步 线性 回归 或 岭 回归 ) 时 ， 模 型 也 束 增 加 了 偏差 
(bias) ， 与 此 同时 却 减 小 了 模型 的 方 赤 。 下 一 节 将 揭示 这 些 概念 之 间 
的 关系 并 分 析 它 们 对 结果 的 影响 。 





8.5 权衡 俩 兰 与 方才 


任何 时 候 ， 一旦 发 现 模型 和 测量 值 之 间 存 在 差异 ， 就 说 出 现 了 误差 。 当 
考虑 模型 中 的 “噪声 ?或 者 说 误差 时 ， 必 须 考虑 其 的 来 源 。 你 可 能 会 对 复 
ee 
若 无 法 理解 数据 的 真实 生成 过 程 ， 也 会 导致 差异 的 发 生 。 另 外 ， 测 量 
程 本 身 也 可 能 产生 “噪声 ”或 者 问题 。 下 面 举 一 个 例子 ， 2 
理 过 一 个 从 文件 导入 的 三 维 数 据 。 实 话 来 讲 ， 这 个 数据 是 我 自己 造 出 来 
的 ， 其 具体 的 生成 公式 如 下 : 











Y= 3.0+ 1.7x + 0.1sin(30x)}+0.06N{0,1), 





其 中 N(9,1) 是 一 个 均值 为 0、 方 差 为 1 的 正 态 分 布 。 在 8.1 节 中 ， 我 们 尝试 
过 仅 用 一 条 下 线 来 拟 合 上 述 数 据 。 不 难 想 到 ， 直 线 所 能 得 到 的 最 佳 拟 合 
应 该 是 3.9+1.7x 这 一 部 分 。 这 样 的 话 ， 误 差 部 分 束 

是 9.1sin(30x)+0.06N(0， I 在 8.2 节 和 8.3 节 ， 我 们 使 用 了 局 部 加 权 线 性 
回归 来 试图 捕捉 数据 背后 的 结构 。 该 结构 拟 合 起 来 有 一 定 的 难度 ， 因 此 
我 们 测试 了 多 组 不 同 的 局 部 权重 来 找到 具有 最 小 测试 误差 的 解 。 


图 8-8 给 出 了 训练 误差 和 测试 误差 的 曲线 图 ， 上 面 的 曲线 束 古 测试 误 
差 ， 下 面 的 曲线 是 训练 误差 。 根 据 8.3 节 的 实验 我 们 知道 ,如果 降 低 核 
的 大 小 ， 那 么 训练 误差 将 变 小 。 从 图 8-8 来 看 ， 从 左 到 右 束 表示 了 核 逐 
渐 减 小 的 过 程 。 
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图 8-8 ”偏差 方差 折 中 与 测试 误差 及 训练 误差 的 关系。 上面 的 曲线 就 是 
测试 误 兰 ， 在 中 间 部 分 最 低 。 为 了 做 出 最 好 的 预 训 ， 我 们 应 该 调整 模 
型 复杂 上 度 来 达到 测试 误差 的 最 小 值 


一 般 认 为 ， 上 述 两 种 误 兰 由 三 个 部 分 组 成 : 偶 兰 、 测 量 误 益 和 随机 只 
人 
方 索 。 


8.4 克 介绍 了 缩减 法 ， 可 以 将 一 些 系数 缩减 成 很 小 的 值 或 和 直接 缩减 为 0， 
这 是 一 个 增 大 模型 侦 兰 的 例子 。 通 过 把 一 些 特征 的 回归 系数 缩减 到 0， 
同时 也 残 减少 了 模型 的 复杂 度 。 例 子 中 有 8 个 特征 ， 消 除 其 中 两 个 后 不 
仅 使 模型 更 易 理解 ， 同 时 还 降低 了 预测 误差 。 图 8-8 的 左 侧 是 参数 颖 减 
过 于 严 历 的 结果 ， 而 右 侧 是 无 缩减 的 效果 。 


方差 是 可 以 度量 的 。 如 果 从 鲍鱼 数据 中 取 一 个 随机 样本 集 ( 例 如 取 其 中 
100 个 数据 ) 并 用 线性 模型 拟 合 ， 将 会 得 到 一 组 回归 系数 。 同 理 ， 再 取 
出 另 一 组 随机 样本 集 并 拟 合 ， 将 会 得 到 另 一 组 回归 系数 。 这 些 系数 间 的 
差异 大 小 也 就 是 模型 方差 大 小 的 反映 '。 上 述 偏差 与 方差 折 中 的 概念 在 机 

















需 学 习 十 分 流行 并 且 反 复出 现 。 

下 一 市 将 介绍 上 述 理论 的 应 用 : 首先 从 拍卖 站 点 抽取 一 些 数 据 ， 再 使 用 
一 些 回 归 法 进行 实验 来 为 数据 找到 最 佳 的 岭 回 归 模 型 。 这 样 束 可 以 通过 
实际 效果 来 看 看 偏差 和 方差 间 的 折 中 效果 。 








8.6 示例: 预 训 乐 高 玩具 套 妆 的 价格 


你 对 乐高 (LEGO ) 品牌 的 玩具 了 解 吗 ?” 乐高 公司 生产 拼装 类 玩具 ， 由 
很 多 大 小 不 同 的 塑料 插 块 组 成 。 这 些 塑 料 插 块 的 设计 非常 出 色 ， 不 需要 
任何 粘 合剂 就 可 以 随意 拼装 起 来 。 除 了 简单 玩具 之 外 ， 乐 高 玩具 在 一 些 
成 人 中 也 很 流行 。 一 般 来 说 ， 这 些 插 块 都 成 套 出 售 ， 它 们 可 以 拼装 成 很 
多 不 同 的 东西 ， 如 船 、 城 堡 、 一 些 著 名 建筑 ， 等 等 。 乐 高 公司 每 个 套装 
包含 的 部 件数 目 从 10 件 到 5000 件 不 等 。 

一 种 乐高 套装 基本 上 在 几 年 后 就 会 停产 ， 但 乐高 的 收藏 者 之 间 仍 会 在 停 
产后 彼此 交易 。Dangler 喜 欢 为 乐高 套装 估价 ， 下 面 将 用 本 章 的 回归 技 
术 帮 助 他 建立 一 个 预测 模型 。 


示例 : 用 回归 法 预测 乐高 套装 的 价格 

















. 收集 数据 : 用 Google Shopping 的 API 收 集 数 据 。 

. 准备 数据 : 从 返回 的 JSON 数 据 中 抽取 价格 。 

. 分 析 数 据 : 可 视 化 并 观察 数据 。 

和 
喘 到 。 

5. 测试 算法 : 使 用 交叉 验证 来 测试 不 同 的 模型 ， 分 析 哪 个 效果 最 好 。 

6. 使 用 算法 : 这 次 练习 的 目标 就 是 生成 数据 模型 。 


在 这 个 例子 中 ， 我 们 将 从 不 同 的 数据 集 上 获取 价格 ， 然 后 对 这 些 数 据 建 
并 回归 模型 。 震 要 做 的 第 一 件 事 束 是 如 何 获 取 数 据 。 


8.6.1 收集 数据 : 使 用 Google 购 物 的 API 


Google 已 经 为 我 们 提供 了 一 套 购 物 的 API 来 抓 取 价格 。 在 使 用 API 之 前 ， 
需要 注册 一 个 Google 账 号 ， 然 后 访问 Google ”API 的 控制 台 来 确保 购物 
API 可 用 。 完 成 之 后 就 可 以 发 送 HTTP 请 求 ，API 将 以 JSON 格 式 返 回 所 需 
的 产品 信息 。Python 提 供 了 JSON 解 析 模 块 ， 我 们 可 以 从 返回 的 JSON 格 
式 里 整理 出 所 需 数据 。 详 细 的 API 介 绍 可 以 参 

见 : http://code.google.com/apis/shopping/search/v1/getting_started.html。 


打开 regression.py 文 件 并 加 入 如 下 代码 。 


人 玉 品 讨 一 








程序 清单 8-5 ”购物 信息 的 获取 函数 


from time import Sleep 

import json 

import urllib2 

def searchForSet(retX, retY, setNum, yr, numpce, origPrc): 


sleep(10) 
myAPIstr = 'get from code.google.com' 
searchURL = 'https://ww.googleapis.com/shopping/search/v1i/public/products? 


key=%s&country=US&q=lego+%d&alt=json' % (myAPIstr, setNum) 
pg = urllib2.urlopen(searchURL) 
retDict = json.loads(pg.read()) 
for i in range(len(retDict['items'])): 
try: 
currItem = retDict['items'][il] 
if currIitem['product']['condition'] == "new': 
newFlag = 1 
else: newFlag = 0 
listOofInv = currIitem['product']['inventories'] 
for item in listOfInv: 
sellingPrice = item['price'] 
if sellingPrice > origPrc * 0.5: 
#@ ”过 滤 掉 不 完整 的 套装 
print "%d\t%d\t%d\t%f\t%f" % (yr,numPce,newFlag,origPprc, sell: 
retX.append( [yr, numPpce, newFlag, origPrc]) 
retY.append(sellingPrice) 
except: print 'problem with item %d' % i 


def setDataCollect(retX, retyY): 
searchForSet(retX, retY, 8288, 2006, 800, 49.99) 
searchForSet(retX, retY, 10030, 2002, 3096, 269.99) 
searchForSet(retX, retY, 10179, 2007, 5195, 499.99) 
searchForSet(retX, retY, 10181, 2007, 3428, 199.99) 
searchForSet(retX, retY, 10189, 2008, 5922, 299.99) 
searchForSet(retX, retY, 10196, 2009, 3263, 249.99) 


上 述 程序 清单 中 的 第 一 个 函数 是 searchForset()， 它 调用 Google 购 物 
API 并 保证 数据 抽取 的 正确 性 。 这 里 需要 导入 新 的 模 

块 : time.sleep()、json 和 ur11lib2。 但 是 一 开始 要 休眠 10 秒 钟 ， 这 是 为 
了 防止 短 时 间 内 有 过 多 的 API 调 用 。 接 下 来 ， 我 们 拼接 查询 的 URL 字 符 
串 ， 添 加 API 的 key 和 竺 查询 的 套装 信息 ， 打 开 和 解析 操作 通过 
json.1loads() 方 法 实现 。 完 成 后 我 们 将 得 到 一 部 字典 ， 下 面 需 要 做 的 是 
从 中 找 出 价格 和 其 他 信息 。 


部 分 返回 结果 的 是 一 个 产品 的 数组 ， 我 们 将 在 这 些 产 品 上 循环 迭代 ， 判 
断 该 产品 是 舍 是 新 产品 并 抽取 它 的 价格 。 我 们 知道 ， 乐 高 套装 由 很 多 小 
插件 组 成 ， 有 的 二 手套 装 很 可 能 会 缺失 其 中 一 两 件 。 也 就 是 说 ， 卖 家 只 
出 售 套装 的 奋 干 部 件 〈 不 完整 ) 。 因 为 这 种 不 完整 的 套 闭 也 会 通过 检索 
结果 返回 ， 所 以 我 们 需要 将 这 些 信 息 过 滤 掉 《〈 可 以 统计 描述 中 的 关键 词 

















或 者 是 用 贝 叶 斯 方法 来 判断 ) 。 我 在 这 里 仅 使 用 了 一 个 简单 的 启发 式 方 
法 : 如 果 一 个 套装 的 价格 比 原始 价格 低 一 半 以 上 ， 则 认为 该 套装 不 完 
整 。 程 序 清单 8-5 在 代码 @ 处 过 滤 挥 了 这 些 套装 ， 解 析 成 功 后 的 套装 将 
在 屏幕 上 显示 出 来 并 保存 在 list 对 象 retx 和 retY 中 。 


程序 清单 8-5 的 最 后 一 个 函数 是 setDatacollect()， 它 负责 多 次 调 
用 searchForset()。 国 数 searchForset() 的 其 他 参数 是 从 
www.brickset.com 收 集 来 的 ， 它 们 也 一 并 输出 到 文件 中 。 


下 面 看 一 下 执行 结果 ， 添加 程序 清单 8.5 中 的 代码 之 后 保 
存 regression.py， 在 Python 提示 符 下 输入 如 下 命令 : 


>>> lgX = []; lgY = [] 

>>> regression.setDataCollect(1gX, lgY) 
2006 800 1 49.990000 549.990000 

2006 800 1 49.990000 759.050000 

2006 800 1 49.990000 316.990000 

2002 3096 1 269.990000 499.990000 

2002 3096 1 269.990000 289.990000 


2009 3263 0 249.990000 524.990000 
2009 3263 1 249.990000 672.000000 
2009 3263 1 249.990000 580.000000 





检查 一 下 1gx 和 1gY 以 确认 一 下 它们 非 空 。 下 节 我 们 将 使 用 这 些 数据 来 构 
建 回 归 方程 并 预 训 乐高 玩具 套装 的 售 价 。 


8.6.2 ”训练 算法 : 建立 模型 

上 一 节 从 网 上 收集 到 了 一 些 真 实 的 数据 ， 下 面 将 为 这 些 数 据 构 建 一 个 模 
型 。 构 建 出 的 模型 可 以 对 售 价 做 出 预测 ， 并 帮助 我 们 理解 现 有 数据 。 看 
一 下 Python 是 如 何 完成 这 些 工 作 的 。 


ot (X0=1) ， 为 此 创建 一 个 全 1 的 矩 





>>> Shape(1LgX) 
(58, 4) 
>>> lgX1i=mat (ones((58,5))) 


接 下 来 ， 将 原 数 据 矩 阵 1gx 复 制 到 新 数据 窍 阵 1gx1 的 第 1 到 第 5 列 : 


>>> 1gx1[: ,1:5]=mat(1LgX) 


确认 一 下 数据 复制 的 正确 性 : 


>>> lgX[0] 

[2006.0, 800.0, 0.0, 49.990000000000002] 

>>> 1gX1i[0] 

matrix([[ 1.00000000e+00, 2.00600000e+03, 8.00000000e+02, 
0.00000000e+00, 4.99900000e+01]]) 


很 显然 ， 后 者 除了 在 第 0 列 加 入 1 之 外 其 他 数据 者 一样 。 最 后 在 这 个 新 数 
据 集 上 进行 回归 处 理 : 


>>> ws=regression.standRegres(1gX1,1gY) 
>>> ws 
matrix([[ 5.53199701ie+04], 

[ -2.75928219e+01], 

[ -2.68392234e-02]， 

[ -1.12208481e+01], 

[ 2.57604055e+00]]) 





检查 一 下 结果 ， 看 看 模型 是 否 有 效 : 


>>> 1gX1[0]*ws 
matrix([[ 76.07418853]]) 
>>> lgX1i[-1]*ws 
matrix([[ 431.17797672]]) 
>>> lgX1[43]*ws 
matrix([[ 516.20733105]]) 





可 以 看 到 模型 有 效 。 下 面 看 看 具体 的 模型 。 该 模型 认为 套装 的 售 价 应 该 
采用 如 下 公式 计算 : 


$55319.97-27.59*Year-0.00268*NumPieces-11.22*NewOrUsed+2.57*original price 


这 个 模型 的 预测 效果 非常 好 ， 但 模型 本 喘 并 不 能 令 人 满意 。 它 对 于 数据 
拟 合 得 很 好 ， 但 看 上 去 没有 什么 道理 。 从 公式 看 ， 套 装 里 零 部 件 越 多 售 
价 反 而 会 越 低 。 忆 外 ， 该 公式 对 新 套 效 也 有 一 定 的 惩 列 。 


下 面 使 用 缩减 法 中 一 种 ， 即 蛤 回 归 再 进行 一 次 实验 。 前 面 讨 论 过 如 何 对 
系数 进行 缩减 ， 但 这 次 将 会 看 到 如 何 用 缩减 法 确定 最 佳 回 归 系 数 。 打 
开 regression,.py 并 输入 下 面 的 代码 。 


程序 清单 8-6 ”交叉 验证 测试 岭 回归 


def crossValidation(xArr,yArr,numVal=10): 
m = len(yArr) 
indexList = range(m) 
errorMat = zeros((numVal,30)) 
for i in range(numVal): 
#@@ (以 下 两 行 ) 创建 训练 集 和 测试 集 容器 
trainX=[]; trainY=[] 
testX = []; testY = [] 
random. shuffle(indexList) 
for j in range(m): 
if j < m*0.9: 
#@ (以 下 五 行 ) 数据 分 为 训练 集 和 测试 集 
trainX.append(xArr[indexList[j]]) 
trainY.append(yArr[indexList[j]]) 
else: 
testXx.append(xArr[indexList[j]]) 
testY.append(yArr[indexList[j]]) 
wMat = ridgeTest(trainX,trainyY) 
for k in range(30): 
# 人 @〈 以 下 三 行 ) 用 训练 时 的 参数 将 测试 数据 标准 化 
matTestX = mat(testX); matTrainX=mat(trainX) 
meanTrain = mean(matTrainX,o0) 
varTrain = var(matTrainX,0) 
matTestX = (matTestX-meanTrain)/varTrain 
yEst = matTestX * mat(wMat[k,:]).T + mean(trainY) 
errorMat[i,k]=rssError(yEst.T.A,array(testyY)) 
meanErrors = mean(errorMat,o) 
minMean = float(min(meanErrors)) 
bestweights = wMat[nonzero(meanErrors==minMean)] 
xMat = mat(xArr); yMat=mat(yArr).T 
meanX = mean(xMat,0); varX = var(xMat,90) 
#@@ (以 下 三 行 ) 数据 还 原 
unReg = bestweights/varX 
print "the best model from Ridge Regression is:\n",unReg 
print "with constant term: ",-1*sum(multiply(meanX,unReg)) + mean(yMat) 
























































上 述 程序 清单 中 的 函数 crossvalidation() 有 三 个 参数 ， 前 两 个 参数 1gx 
和 1gY 存 有 数据 集中 的 X 和 Y 值 的 list 对 象 ， 默 认 1gx 和 1lgY 具 有 相同 的 长 
度 。 第 三 个 参数 numval 是 算法 中 交叉 验证 的 次 数 ， 如 果 访 值 没 有 指定 ， 
束 取 默认 值 10。 逊 数 crossvalidation() 首 先 计 算数 据点 的 个 数 n。 创 建 
好 了 训练 集 和 测试 集 容器 @， 之 后 创建 了 一 个 list 并 使 用 Numpy 提 供 的 
random.shuffle() 函 数 对 其 中 的 元 素 进 行 混 洗 〈shuffle) ， 因 此 可 以 实 
现 训 练 集 或 测试 集 数据 点 的 随机 选取 。 人 处 将 数据 集 的 90% 分 割 成 训练 
集 ， 其 余 10% 为 测试 集 ， 并 将 二 者 分 别 放 入 对 应 容器 中 。 


一 旦 对 数据 点 进行 混 洗 之 后 ， 就 建立 一 个 新 的 矩阵 wat 来 保存 岭 回归 中 
的 所 有 回归 系数 。 我 们 还 记得 在 8.4.1 节 中 ， 函 数 ridgeTest() 使 用 30 个 
不 同 的 值 创建 了 30 组 不 同 的 回归 系数 。 接 下 来 我 们 也 在 上 述 测试 集 上 





用 30 组 回归 系数 来 循环 测试 回归 效果 。 岭 回归 需要 使 用 标准 化 后 的 数 
据 ， 因 此 测试 数据 也 需要 用 与 测试 集 相 同 的 参数 来 执行 标准 化 。 在 全 处 
用 冰 数 rssError() 计 算 误差 ， 并 将 结果 保存 在 errorMat 中 。 


在 所 有 交叉 验证 完成 后 ，errorMat 保 存 了 ridgeTest() 里 每 个 对 应 的 多 
个 误差 值 。 为 了 将 得 出 的 回归 系数 与 standRegres() 作 对 比 ， 需 要 计算 
这 些 误 差 估计 值 的 均值 '。 有 一 点 值得 注意 : 岭 回 归 使 用 了 数据 标准 化 ， 
而 standRegres() 则 没有 ， 因 此 为 了 将 上 述 比 较 可 视 化 还 需 将 数据 还 
原 。 在 @ 处 对 数据 做 了 还 原 并 将 最 终结 果 展示 。 


1. 此 处 为 10 折 ， 所 以 每 个 应 该 对 应 10 个 误差 。 应 选取 使 误差 的 均值 最 低 的 回归 系数 。---- 译 者 注 


来 看 一 下 整体 的 运行 效果 ， 在 regression.py 中 输入 程序 清单 8-6 中 的 代 
码 并 保存 ， 然 后 执行 如 下 命令 : 


>>> regression.crossValidation(]gX,1gY,10) 

The best model from Ridge Regression is: 

[[ -2.96472902e+01 -1.34476433e-03 -3.38454756e+01 2.44420117e+00] ] 
with constant term: 59389.2069537 




















为 了 便于 与 第 规 的 最 小 二 乘法 进行 比较 ， 下 面 给 出 当前 的 价格 公式 : 


$59389.21-29.64*Year-0.00134*NumPieces-33.85*NewOrUsed+2.44*original price. 


可 以 看 到 ， 该 结果 与 最 小 二 乘法 没有 太 大 差异 。 我 们 本 期 望 找到 一 个 更 
易于 理解 的 模型 ， 显 然 没 有 达到 预期 效果 。 为 了 达到 这 一 点 ， 我 们 来 看 
一 下 在 缩减 过 程 中 回归 系数 是 如 何 变化 的 ， 输 入 下 面 的 命令 : 

>>> regression.ridgeTest(1gX,1gY) 


array([[ -1.45288906e+02，-8,.39360442e+03，-3.28682450e+00，4.42362406e+04]， 
[ -1.46649725e+02, -1.89952152e+03, -2.80638599e+00,4.27891633e+04] ， 





[ -4.91045279e-06, 5.01149871e-08, 2.40728171e-05,8.14042912e-07]]) 





这 些 系数 是 经 过 不 同 程度 的 缩减 得 到 的 。 首 先 看 第 1 行 ， 第 4 项 比 第 2 项 
的 系数 大 5 倍 ， 比 第 1 项 大 57 倍 。 这 样 看 来 ， 如 果 只 能 选择 一 个 特征 来 做 
预测 的 话 ， 我 们 应 该 选择 第 4 个 特征 ， 也 就 是 原始 价格 。 如 果 可 以 选择 2 
个 特征 的 话 ， 应 该 选择 第 4 个 和 第 2 个 特征 。 


这 种 分 析 方 法 使 得 我 们 可 以 挖掘 大 量 数据 的 内 在 规律 。 在 仅 有 4 个 特征 
时 ， 该 方法 的 效果 也 许 并 不 明显 ;但 如 果 有 100 个 以 上 的 特征 ， 该 方法 
就 会 交 得 上 分 有 效 : 它 可 以 指出 哪些 特征 是 关键 的 ， 而 哪些 特征 是 不 重 


要 的 





8.7 本章 小 结 


与 分 类 一 样 ， 回 归 也 是 预测 目标 值 的 过 程 。 回 归 与 分 类 的 不 同 点 在 于 ， 
前 者 预测 连续 型 变量 ,而 后 者 预测 离散 型 变量 。 回 归 是 统计 学 中 最 有 力 
的 工具 之 一 。 在 回归 方程 里 ， 求 得 特征 对 应 的 最 佳 回归 系数 的 方法 是 最 
小 化 误 钴 的 平方 和 。 给 定 输入 窍 阵 x， 如 果 Xx 的 逆 存 在 并 可 以 求 得 的 

话 ， 回 归 法 都 可 以 直接 使 用 。 数 据 集 上 计算 出 的 回归 方程 并 不 一 定 意 味 
二 
至 的 好 坏 。 


当 数 据 的 样本 数 比特 征 数 还 少时 候 ， 和 矩阵 xx 的 逆 不 能 直接 计算 。 即 便当 
样本 数 比 特征 数 多 时 ，xx 的 逆 仍 有 可 能 无 法 直接 计算 ， 这 是 因为 特征 有 
可 能 高 度 相 关 。 这 时 可 以 考虑 使 用 岭 回 归 ， 因 为 当 xx 的 逆 不 能 计算 时 ， 
它 仍 保证 能 求 得 回归 参数 。 


岭 回 归 是 缩减 法 的 一 种 ， 相 当 于 对 回归 系数 的 大 小 施加 了 限制 。 男 一 种 
很 好 的 缩减 法 是 lasso。Lasso 难 以 求解 ， 但 可 以 使 用 计算 简便 的 逐步 线 
性 回归 方法 来 求 得 近似 结果 。 


缩减 法 还 可 以 看 做 是 对 一 个 模型 增加 偏差 的 同时 减少 方差 。 偏 差 方 差 折 
中 是 一 个 重要 的 概念 ， 可 以 帮助 我 们 理解 现 有 模型 并 做 出 改进 ， 从 而 得 
到 更 好 的 模型 。 


本 章 介 绍 的 方法 很 有 用 。 但 有 些 时 候 数 据 间 的 关系 可 能 会 更 加 复杂 ， 如 
预测 值 与 特征 之 间 是 非 线 性 关系 ， 这 种 情况 下 使 用 线性 的 模型 就 难以 拟 
合 。 下 一 章 将 介绍 几 种 使 用 树 结构 来 预测 数据 的 方法 。 





























第 9 章 ” 树 回 归 


本 章 内 容 


。 CART 算 法 

。 回归 与 模型 树 

。 树 斑 校 算法 

。 Python 中 GUI 的 使 用 


第 8 章 介 绍 的 线性 回归 包含 了 一 些 强大 的 方法 ， 但 这 些 方 法 创建 的 模型 
需要 拟 合 所 有 的 样本 点 (局 部 加 权 线 性 回归 除外 ) 。 当 数据 拥有 众多 特 
征 并 且 特 征 之 间 关 系 十 分 复杂 时 ， 构 建 全 局 模型 的 想法 就 显得 太 难 了 ， 
也 很 略 显 示 答 拙 。 而 且 ， 实 际 生活 中 很 多 问题 都 是 非 线 性 的 ， 不 可 能 使 
用 全 局 线性 模型 来 拟 合 任何 数据 。 


一 种 可 行 的 方法 是 将 数据 集 切 分 成 很 多 份 易 建 模 的 数据 ， 然 后 利用 第 8 
革 的 线性 回归 技术 来 建 模 。 如 果 首 次 切 分 后 仍然 难以 拟 合 线性 模型 就 继 
续 切 分 。 在 这 种 切 分 方式 下 ， 树 结构 和 回归 法 就 相当 有 用 。 


本 章 首先 介绍 一 个 新 的 叫做 CART (Classification And Regression 
Trees， 分 类 回归 树 ) 的 树 构 建 算法 。 该 算法 既 可 以 用 于 分 类 还 可 以 用 
于 回归 ， 因 此 非常 值得 学 习 。 然 后 利用 Python 来 构建 并 显示 CART 树 。 
代码 会 保持 足够 的 灵活 性 以 便 能 用 于 多 个 问题 当中 。 接 着 ， 利 用 CART 
算法 构建 回归 树 并 介绍 其 中 的 树 勇 校 技术 《该 技术 的 主要 目的 是 防止 树 
的 过 拟 合 ) 。 之 后 引入 了 一 个 更 高 级 的 模型 树 算 法 。 与 回归 树 的 做 法 

《在 每 个 叶 节 点 上 使 用 各 自 的 均值 做 预测 ) 不 同 ， 该 算法 需要 在 每 个 叶 
节点 上 都 构建 出 一 个 线性 模型 。 在 这 些 树 的 构建 算法 中 有 一 些 需 要 调整 
的 参数 ， 所 以 还 会 介绍 如 何 使 用 Python 中 的 Tkinter 模 块 建立 图 形 交 互 界 
面 。 最 后 ， 在 该 界面 的 辅助 下 分 析 参 数 对 回归 效果 的 影响 。 





9.1 复杂 数据 的 局 部 性 建 模 


树 回 归 


优点 : 可 以 对 复杂 和 非 线 性 的 数据 建 模 
缺点 : 结果 不 易 理 解 
适用 数据 类 型 : 数值 型 和 标 称 型 数据 


第 3 重 使 用 决策 树 来 进行 分 关 。 雇 策 树 个 断 将 数据 切 分 成 小 数据 集 ， 下 
到 所 有 目标 变量 完全 相同 ， -或 者 数据 不 能 再 切 分 为 正 。 决策 树 是 一 种 贫 
人 


第 3 章 使 用 的 树 构 建 算法 是 ID3。ID3 的 做 法 是 每 次 选取 当前 最 佳 的 特征 
来 分 割 数据 ， 并 按照 该 特征 的 所 有 可 能 取 值 来 切 分 。 也 就 是 说 ， 如 果 一 
个 特征 有 4 种 取 值 ， 那 么 数据 将 被 切 成 4 份 。 一 旦 按 某 特征 切 分 后 ， 该 特 
征 在 之 后 的 算法 执行 过 程 中 将 不 会 再 起 作用 ， 所 以 有 观点 认为 这 种 切 分 
方式 过 于 迅速 。 男 外 一 种 方法 是 二 元 切 分 法 ， 即 每 次 把 数据 集 切 成 两 

份 。 如 琳 数 据 的 茶 特 征 值 等 于 切 分 所 要 求 的 值 ， 那 么 这 些 数 据 束 进 入 树 
的 左 子 树 ， 有 反之 则 进入 树 的 右 子 树 。 


J ID3 算 法 还 存在 力 一 个 问题 ， 它 不 能 直接 处 理 连 
续 型 特征 。 只 有 事先 将 连续 型 特征 转换 成 离散 型 ， 才 能 在 ID3 算 法 中 使 
用 。 但 这 种 转换 过 程 会 破坏 连续 型 变量 的 内 在 性 质 。 而 使 用 二 元 切 分 法 
则 易于 对 树 构建 过 程 进行 调整 以 处 理 连续 型 特征 。 具 体 的 处 理 方 法 是 : 
如 琳 特 征 值 大 于 给 定 值 就 走 左 子 树 ， 耕 则 就 走 右 子 树 。 男 外 ， 二 元 切 分 
法 也 市 省 了 树 的 构建 时 间 ， 但 这 点 意义 也 不 是 特 别 大 ， 因 为 这 些 树 构建 

一 般 是 离线 完成 ， 时 间 并 非 需要 重点 关注 的 因素 。 


NA 著名 且 广 泛 记 载 的 树 构建 算法 ， 它 使 用 二 元 切 分 来 处 理 连 

续 型 变量 。 对 CART 稍 作 修 改 就 可 以 处 理 回归 问题 。 第 3 章 中 使 用 香农 炉 
来 度量 集合 的 无 组 织 程度 。 如 果 选 用 其 他 方法 来 代替 香农 ， 就 可 以 使 
用 树 构 建 算法 来 完成 回归 。 


下 面 将 实现 CART 算 法 和 回归 树 。 0 类 树 的 思路 类 似 ， 但 叶 节 
点 的 数据 类 型 不 是 离散 型 ， 而 是 连 




















树 回 归 的 一 


1. 收集 数据 : 


据 。 


OU W 


二 


.分析 数据 : 
. 训练 算法 : 
. 测试 算法 : 
使用 算法 : 


般 方 法 


采用 任意 方法 收集 数据 。 
需要 数值 型 的 数据 ， 标 称 型 数据 应 该 映射 成 二 值 型 数 


绘 出 数据 的 二 维 可 视 化 显示 结果 ， 以 字典 方式 生成 树 。 
大 部 分 时 间 都 花费 在 叶 节 点 树 模 型 的 构建 上 。 
使 用 测试 数据 上 的 R2 值 来 分 析 模 型 的 效果 。 
使 用 训练 出 的 树 做 预测 ， 预 测 结果 还 可 以 用 来 做 很 多 事 











有 了 思路 之 后 就 可 以 开始 写 代 码 了 。 下 一 节 将 介绍 在 Python 中 利用 
CART 算 法 构建 树 的 最 佳 方法 。 


9.2 ”连续 和 离散 型 特征 的 树 的 构建 


在 树 的 构建 过 程 中 ， 需 要 解决 多 种 类 型 数据 的 存储 问题 。 与 第 3 章 类 
En 各， 该 字典 将 包含 以 下 4 个 
元 素 。 





待 切 分 的 特征 。 

竺 切 分 的 特征 值 。 

右 子 树 。 当 不 再 需要 切 分 的 时 候 ， 也 可 以 是 单个 值 。 
左 子 树 。 与 右 子 树 类 似 。 


这 与 第 3 章 的 树 结构 有 一 点 不 同 。 第 3 章 用 一 部 字典 来 存储 每 个 切 分 ， 但 
该 字典 可 以 包含 两 个 或 两 个 以 上 的 值 。 而 CART 算 法 只 做 二 元 切 分， 所 
以 这 里 可 以 固定 树 的 数据 结构 。 树 包含 左 键 和 右键 ， 可 以 存储 另 一 棵 于 
树 或 者 单个 值 。 字 典 还 包含 特征 和 特征 值 这 两 个 键 ， 它 们 给 出 切 分 算法 
所 有 的 特征 和 特征 值 。 当 然 ， 读 者 可 以 用 面向 对 象 的 编程 模式 来 建 并 这 
个 数据 结构 。 例 如 ， 可 以 用 下 面 的 Python 代 码 来 建立 树 市 点 : 
class treeNode(): 
def _ init (self, feat, val, right, left): 
featureToSplitOon = feat 
valueOfSplit = val 


rightBranch = right 
leftBranch = left 











当 使 用 C++ 这 样 不 太 灵 活 的 编程 语言 时 ， 你 可 能 要 用 面 同 对 象 编程 模式 
来 实现 树 结 构 。Python 具 有 足够 的 灵活 性 ， 可 以 直接 使 用 字典 来 存储 树 
结构 而 无 须 力 外 自 定义 一 个 类 ， 从 而 有 效 地 减少 代码 量 。Python 不 是 一 
种 强 类 型 编程 语言 “， 因 此 接 下 来 会 看 到 ， 树 的 每 个 分 校 还 可 以 再 包含 
其 他 树 、 数 值 型 数据 甚至 是 癌 量 。 


本 章 将 构建 两 种 树 : 第 一 种 是 9.4 节 的 回归 树 (regression tree) ， 其 每 个 
叶 节 点 包含 单个 值 ， 第 二 种 是 9.5 节 的 模型 树 (model tree) ， 其 每 个 叶 
节点 包含 一 个 线性 方程 。 创 建 这 两 种 树 时 ， 我 们 将 尽量 使 得 代码 之 间 可 
以 重用 。 下 面 先 给 出 两 种 树 构建 算法 中 的 一 些 共用 代码 。 


函数 createTree() 的 伪 代 人 码 大 致 如 下 : 














找到 最 佳 的 待 切 分 特征 : 

如 果 该 节点 不 能 再 分 ， 将 该 节点 存 为 叶 节点 
执行 二 元 切 分 
在 右 子 树 调 用 createTree( ) 方 法 
在 左 子 树 调 用 createTree( ) 方 法 



























































打开 文本 编辑 器 ， 创 建文 件 regTrees.py 并 添加 如 下 代码 。 
程序 清单 9-1 CART 算 法 的 实现 代码 


from numpy import * 


def loadDataSet (fileName): 

dataMat = [] 

fr = open(fileName) 

for line in fr.readlines(): 
curLine = line.strip().split('\t"') 
#@ ”将 每 行 映射 成 浮 点 数 
fltLine = map(float,curLine) 
dataMat .append(fltLine) 

return dataMat 





def binSsplitDataSset(dataset, feature, value): 
mato = dataSet[nonzero(dataSet[: ,feature] > value)[0],:][0] 
mat1 = dataSet[nonzero(dataSet[: ,feature] <= value)[90],:][0] 
return mat0,mat1 


def createTree(dataSset, leafType=regLeaf, errType=regErr, ops=(1,4)): 
feat, val = chooseBestSplit(dataSet, leafType, errType, ops) 
#@ 满足 停止 条 件 时 返回 叶 节点 值 
If feat == None: return val 
retTree = {} 
retTree['spInd'] = feat 
retTree['spVal'] = val 
lSet, rSet = binSsplitDataset(datasSet, feat, val) 
retTree['left'] = createTree(lSet, leafType, errType, ops) 
retTree['right'] = createTree(rSet, leafType, errType, ops) 
return retTree 


上 述 程序 清单 包含 3 个 函数 : 第 一 个 函数 是 loadpataset() ， 该 图 数 与 其 
他 章 市 中 同名 函数 功能 类 似 。 在 前 面 的 章节 中 ， 目 标 变量 会 单独 存放 其 
目 己 的 列表 中 ， 但 这 里 的 数据 会 存放 在 一 起 。 该 函数 读 取 一 个 以 tab 键 

为 分 阳 符 的 文件 ， 然 后 将 每 行 的 内 容 保 存 成 一 组 浮 点 数 @。 

第 二 个 函数 是 binsplitpataset()， 该 函数 有 3 个 参数 ， 数 据 集合 、 待 切 
分 的 特征 和 该 特征 的 茶 个 值 。 在 给 定 特征 和 特征 值 的 情况 下 ， 该 函数 通 
过 数组 过 滤 方 式 将 上 述 数据 集合 切 分 得 到 两 个 子 集 并 返回 。 


最 后 一 个 函数 是 树 构建 函数 createTree()， 它 有 4 个 参数 : 数据 集 和 其 


他 3 个 可 选 参 数 。 这 些 可 选 参数 决定 了 树 的 类 型 : leafType 给 出 建立 叶 
节点 的 函数 ，errType 代 表 误 兰 计 算 函 数 ， 而 ops 是 一 个 包含 树 构 建 所 需 
其 他 参数 的 元 组 。 


函数 createTree() 是 一 个 递归 函数 。 该 函数 首先 尝试 将 数据 集 分 成 两 个 
部 分 ， 切 分 由 函数 chooseBestsplit() 完 成 《这 里 未 给 出 该 函数 的 实 
现 ) 。 如 果 满 足 停止 条 件 ，chooseBestsplit() 将 返回 None 和 某 类 模型 的 
值 人 四 。 如 果 构 建 的 是 回归 树 ， 该 模型 是 一 个 常数 。 如 果 是 模型 树 ， 其 模 
型 是 一 个 线性 方程 。 后 面 会 看 到 停止 条 件 的 作用 方式 。 如 果 不 满足 停止 
条 件 ，chooseBestsplit() 将 创建 一 个 新 的 Python 字典 并 将 数据 集 分 成 两 
份 ， 在 这 两 份 数据 集 上 将 分 别 继续 递归 调用 createTree() 函 数 。 


程序 清单 9-1 的 代码 很 容易 理解 ， 但 其 中 的 方法 chooseBestSplit() 现 在 
和 暂时 尚未 实现 ， 所 以 函数 还 不 能 看 到 createTree() 的 实际 效果 。 但 十 下 
面 可 以 先 测试 其 他 两 个 函数 的 效果 。 将 程序 清单 9-1 的 代码 保存 在 文件 
regTrees.py 中 并 在 Python 提示 符 下 输入 如 下 命令 : 


>>> Import regTrees 
>>> testMat=mat (eye(4)) 
>>> testMat 
matrix([[ 1., 
[ 9.， 
[ 0., 
[ 9.， 





©OOPO 


这 样 束 创建 了 一 个 简单 的 矩阵 ， 现 在 按 指 定 列 的 茶 个 值 来 切 分 该 矩阵 。 


>>> matO0,mat1i=regTrees.binSsplitDataSet(testMat,1,0.5) 


>>> mat0 

matrix([[ 0., 1., 0., 0.]]) 

>>> mat1 

matrix([[ 1., 0., 0., 0.], 
[ 0., 0., 1., 0 


了 了 ,]， 
[ 9.，9.，9.，1.]]) 


很 有 趣 吧 。 下 面 给 出 回归 树 的 chooseBestSspLit() 国 数 ， 还 会 看 到 更 有 趣 
的 结果 。 下 一 节 将 针对 回归 树 构建 ， 在 chooseBestSplLit() 函 数 里 加 入 有 具 
体 代 码 ， 之 后 束 可 以 使 用 程序 清单 9-1 的 CART 算 法 来 构建 回归 树 。 





9.3 ”将 CART 算 法 用 于 回归 


要 对 数据 的 复杂 关系 建 模 ， 我 们 已 经 决定 借用 树 结 构 来 帮助 切 分 数据 ， 
那么 如 何 实 现 数据 的 切 分 呢 ? 怎么 才能 知道 是 人 否 已 经 充分 切 分 呢 ? 这 些 
问题 的 答案 取决 于 叶 节 点 的 建 模 方 式 。 回 归 树 假设 叶 市 点 是 常数 值 ， 这 
种 策略 认为 数据 中 的 复杂 关系 可 以 用 树 结 构 来 概括 。 


为 成 功 构建 以 分 段 常数 为 叶 节 点 的 树 ， 需 要 度量 出 数据 的 一 致 性 。 第 3 
章 使 用 树 进行 分 类 ， 会 在 给 定 节点 时 计算 数据 的 混乱 度 。 那 么 如 何 计算 
连续 型 数值 的 混乱 度 呢 ? 事实 上 ， 在 数据 集 上 计算 混乱 度 是 非常 简单 
的 。 首 先 计 算 所 有 数据 的 均值 ， 然 后 计算 每 条 数据 的 值 到 均值 的 差 值 。 
为 了 对 正 负 差 值 同等 看 待 ， 一 般 使 用 绝对 值 或 平方 值 来 代 蔡 上 述 差 值 。 
上 述 做 法 有 点 类 似 于 前 面 介绍 过 的 统计 学 中 常用 的 方差 计算 。 唯 一 的 不 
同 就 是 ， 方 差 是 平方 误差 的 均值 ( 均 方差 )， 而 这 里 需要 的 是 平方 误差 
0 
来 得 到 。 


有 了 上 述 误差 计算 准则 和 上 一 节 中 的 树 构 建 算法 ， 下 面 就 可 以 开始 构建 
数据 集 上 的 回归 树 了 。 


9.3.1 构建 树 


构建 回归 树 ， 需 要 补充 一 些 新 的 代码 ， 使 程序 清单 9-1 中 的 函 

数 createTree() 得 以 运转 。 首 先 要 做 的 就 是 实现 chooseBestSp1lit() 函 
数 。 给 定 某 个 误差 计算 方法 ， 该 函数 会 找到 数据 集 上 最 佳 的 二 元 切 分 方 
式 。 男 外 ， 该 函数 还 要 确定 什么 时 候 停 止 切 分 ， 一旦 停止 切 分 会 生成 一 
i ew 函数 chooseBestsplLit() 只 需 完 成 两 件 事 : 用 最 佳 方式 
切 分 数据 集 和 生成 相应 的 叶 节 点 。 


从 程序 清单 9-1 可 以 看 出 ， 除 了 数据 集 以 外 ， 函 数 chooseBestsplit() 还 
有 leafType、 errType 和 ops 这 三 个 参数 。 其 中 leafType 是 对 创建 叶 节 点 
的 函数 的 引用 ，errType 是 对 前 面 介绍 的 总 方差 计算 函数 的 引用 ， 而 ops 
是 一 个 用 户 定 义 的 参数 构成 的 元 组 ， 用 以 完成 树 的 构建 。 


下 面 的 代码 中 ， 函 数 chooseBestSsplit() 最 复杂 ， 该 函数 的 目标 是 找到 数 
据 集 切 分 的 最 佳 位 置 。 它 遍历 所 有 的 特征 及 其 可 能 的 取 值 来 找到 使 误差 





















































最 小 化 的 切 分 阔 值 。 该 函数 的 伪 代 码 大 致 如 下 : 


对 每 个 特征 : 
对 每 个 特征 值 : 
将 数据 集 切 分 成 两 份 
计算 切 分 的 误差 
如 果 当 前 误差 小 于 当前 最 小 误差 ， 那 么 将 当前 切 分 设 定 为 最 佳 切 分 并 更 新 最 小 误差 
可 最 佳 切 分 的 特征 和 羡 什 
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下 面 给 出 上 述 三 个 函数 的 具体 实现 代码 。 打 开 regTrees.py 文 件 并 加 入 
程序 清单 9-2 中 的 代码 。 


程序 清单 9-2 ”回归 树 的 切 分 函数 


def regLeaf(dataSet ) : 
return mean(dataset[:,-1]) 


def regErr(dataSet ) : 
return var(dataSset[:,-1]) * shape(dataSet)[0] 


def chooseBestSplit(dataSset, leafType=regLeaf, errType=regErr, ops=(1,4)): 
tolS = ops[0]; tolN = ops[1] 
#@ (以 下 两 行 ) 如 果 所 有 值 相 等 则 退出 
if len(set(dataSset[:,-1].T.tolist()[0])) == 1: 
return None, leafType(dataSet) 
m,n = Shape(dataSet ) 
S = errType(dataSset) 
bestS = inf; bestIndex = 0; bestValue = 0 
for featIndex in range(n-1): 
for splitVal in set(dataSet[: ,featIndex] ): 
mato, mat1 = binSplitDataset(dataSet, featIindex, splitVal) 
If (shape(mat0)[0] < tolN) or (shape(mat1)[0] < tolN): continue 
newS = errType(mat0) + errType(mat1) 
If newS < bests: 
bestIndex = featIndex 
bestValue = splitVal 
bestS = newS 
#@@〈 以 下 两 行 ) 如 果 误 差 减少 不 大 则 退出 
if (S - bestS) < tolS: 
return None, leafType(dataSet) 
mato, mat1 = binSplitDataSset(dataSet, bestIindex, bestValue) 
If (shape(mat0)[0] < tolN) or (shape(mat1)[0] < tolN): 
#@ (以 下 两 行 〉 如 果 切 分 出 的 数据 集 很 小 则 退出 
return None, leafType(dataSet) 
return bestIndex,bestValue 









































上 上 述 程序 清单 中 的 第 一 个 函数 是 regLeaf()， 它 负 贡 生成 叶 节 点 。 

当 chooseBestsplit() 国 数 确定 不 再 对 数据 进行 切 分 时 ， 将 调用 该 
regLeaf() 函 数 来 得 到 叶 节 点 的 模型 。 在 回归 树 中 ， 该 模型 其 实 就 是 目 
标 变 量 的 均值 。 








第 二 个 函数 是 误差 估计 函数 regerr()。 该 函数 在 给 定数 据 上 计算 目标 变 
量 的 平方 误差 。 当 然 也 可 以 先 计算 出 均值 ， 然 后 计算 每 个 差 值 再 平方 。 
但 这 里 直接 调用 均 方 差 函数 var( ) 更 加 方便 。 因 为 这 里 需要 返回 的 是 总 
方差 ， 所 以 要 用 均 方差 乘 以 数据 集中 样本 的 个 数 。 


第 三 个 函数 是 chooseBestsplit()， 它 是 回归 树 构 建 的 核心 函数 。 该 函数 
的 目的 是 找到 数据 的 最 佳 二 元 切 分 方式 。 如 果 找 不 到 一 个 “好 ”的 二 元 切 
分 ， 访 函数 返回 None 并 同时 调用 createTree() 方 法 来 产生 时 节点 ， 叶 节 
点 的 值 也 将 返回 None。 接 下 来 将 会 看 到 ， 在 函数 chooseBestsplit() 中 有 
三 种 情况 不 会 切 分 ， 而 是 直接 创建 叶 节 点。 如果 找到 了 一 个 “好 ”的 切 分 
方式 ， 则 返回 特征 编号 和 切 分 特征 值 。 


国 数 chooseBestsplit() 一 开始 为 ops 设 定 了 tols 和 tolN 这 两 个 值 。 它 们 
是 用 户 指 定 的 参数 ， 用 于 控制 函数 的 停止 时 机 。 其 中 变量 tols 是 容许 的 
误差 下 降 值 ，tolN 是 切 分 的 最 少 样本 数 。 接 下 来 通过 对 当前 所 有 目标 变 
量 建立 一 个 集合 ， 函 数 chooseBestSsplLit() 会 统计 不 同 剩余 特征 值 的 数 
目 。 如 果 该 数目 为 1， 那 么 就 不 需要 再 切 分 而 直接 返回 @。 人 然后 函数 计 
算 了 当前 数据 集 的 大 小 和 误差 。 该 误差 s 将 用 于 与 新 切 分 误差 进行 对 
比 ， 来 检查 新 切 分 能 否 降 低 误 差 。 下 面 很 快 就 会 看 到 这 一 点 。 


这 样 ， 用 于 找到 最 佳 切 分 的 几 个 变量 束 被 建 并 和 初始 化 了 。 下 面 束 将 在 
所 有 可 能 的 特征 及 其 可 能 取 值 上 过 历 ， 找 到 最 佳 的 切 分 方式 。 了 基 佳 切 分 
也 就 是 使 得 切 分 后 能 达到 最 低 误 差 的 切 分 。 如 果 切 分 数据 集 后 效果 提升 
不 够 大 ， 那 么 就 不 应 进行 切 分 操作 而 直接 创建 叶 节 点 全。 男 外 还 需要 检 
二 两 个 切 分 后 的 子 集 大 小 ， 如 果 录 个 子 集 的 大 小 小 于 用 户 定 义 的 参 

数 tolIN， 那 么 也 不 应 切 分 。 最 后 ， 如 果 这 些 提前 终止 条 件 都 不 满足 ， 那 
么 就 返回 切 分 特征 和 特征 值 全 。 


9.3.2 ”运行 代码 
下 面 在 一 些 数据 上 看 看 上 节 代 码 的 实际 效果 ， 以 图 9-1 的 数据 为 例 ， 我 
们 的 目标 是 从 该 数据 生成 一 棵 回归 树 。 


将 程序 清单 9-2 中 的 代码 添加 到 regTree.py 文 件 并 保存 ， 然 后 在 Python 提 
示 符 下 输入 : 
>>>reload(regTrees ) 


<module 'regTrees' from 'regTrees.pyc'> 
>>> from numpy import * 

















图 9-1 的 数据 存储 在 文件 ex60.txt 中 。 


>>> myDat=regTrees.loadDataSet('ex00.txt') 
>>> myMat = mat (myDat) 

>>> regTrees.createTree(myMat) 

{'spInd': 0, 'spVal': matrix([[ 0.48813]]), 
'right': -0.044650285714285733, 

'left': 1.018096767241379} 
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图 9-1 基于 CART 算 法 构建 回归 树 的 简单 数据 集 
再 看 一 个 多 次 切 分 的 例子 ， 考 虑 图 9-2 的 数据 集 。 
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图 9-2 用 于 测试 回归 树 的 分 段 常 数 数据 集 


图 9-2 的 数据 保存 在 一 个 以 tab 键 分 隔 的 文本 文档 exe.txt 中 数据 。 为 从 上 
述 数 据 中 构建 一 棵 回归 树 ， 在 Python 提示 符 下 禹 入 如 下 命令 : 


>>> myDat1=regTrees,1oadDataSet( 'ex0,txt') 

>>> myMat1i=mat (myDat1) 

>>> regTrees.createTree(myMat1) 

{'spInd': 1, 'spVal': matrix([[ 0.39435]])， 'right': {'spInd': 1, 'spVal': 
matrix([[ 0.197834]]), 'right': -0.023838155555555553, 'left': 
1.0289583666666664}, 'left': {'spInd': 1, 'spVal': matrix([[ 0.582002]]), 
'right': 1.9800350714285717, 'left': {'spInd': 1, 'spVal': matrix([[ 
0.797583]]), 'right': 2.9836209534883724, 'left': 3.9871632000000004}}} 


可 以 检查 一 下 该 树 的 结构 以 确保 树 中 包含 5 个 时节 点 。 读 者 也 可 以 在 更 
复杂 的 数据 集 上 构建 回归 树 并 观察 实验 结 








到 现在 为 止 ， 已 经 完成 回归 树 的 构建 ， 但 是 需要 茶 种 措施 来 检查 构建 过 
程 否 得 当 。 下 面 将 介绍 树 剪 枝 〈tree pruning) 技术 ， 它 通过 对 决策 树 剪 
校 来 达到 更 好 的 预测 效果 。 


9.4 树 勇 术 


一 棵 树 如 果 节 点 过 多 ， 表 明 该 模型 可 能 对 数据 进行 了 “过 拟 合 "?。 那 么 ， 
如 何 判断 是 否 发 生 了 过 拟 合 ?” 前 面 章节 中 使 用 了 测试 集 上 东 种 交叉 验证 
技术 来 发 现 过 拟 合 ， 决 策 树 亦 是 如 此 。 本 节 将 对 此 进行 讨论 ， 并 分 析 如 
何 避免 过 拟 合 。 


通过 降低 决策 树 的 复杂 度 来 避免 过 拟 合 的 过 程 称 为 剪 枝 (pruning，。 其 
实 本 章 前面 已 经 进行 过 剪 校 处 理 。 在 函数 chooseBestsplit() 中 的 提前 终 
止 条 件 ， 实 际 上 是 在 进行 一 种 所 谓 的 预 剪 枝 (prepruning)〉 操作 。 另 一 
种 形式 的 剪 校 需 要 使 用 测试 集 和 训练 集 ， 称 作 后 剪 校 (postpruning) 。 
本 节 将 分 析 后 剪 校 的 有 效 性 ， 但 首先 来 看 一 下 预 剪 术 的 不 足 之 处 。 


9.4.1 预 剪 枝 


上 节 两 个 简单 实验 的 结果 还 是 令 人 满意 的 ， 但 背后 存在 一 些 问题 。 树 构 
建 算法 其 实 对 输入 的 参数 tols 和 tolN 非 常 敏 感 ， 如 果 使 用 其 他 值 将 不 太 
容易 达到 这 么 好 的 效果 。 为 了 说 明 这 一 点 ， 在 Python 提 示 符 下 输入 如 下 


人 人 
命令 : 








>>> regTrees.createTree(myMat, ops=(0,1)) 


与 上 节 中 只 包含 两 个 节点 的 树 相 比 ， 这 里 构建 的 树 过 于 腕 有 种 ， 它 甚至 为 
数据 集中 每 个 样本 都 分 配 了 一 个 叶 市 反 。 


图 9-3 中 的 散 点 图 ， 看 上 去 与 图 9-1 非 常 相似 。 但 如 果 仔 细 地 观察 y 轴 就 会 
发 现 ， 前 者 的 数量 级 是 后 者 的 100 倍 。 这 将 不 是 问题 ， 对 吧 ?” 现在 用 该 
和 
入 以 下 命令 : 


>>> myDat2=regTrees.1oadDataSet( 'ex2.txt') 

>>> myMat2=mat (myDat2) 

>>> regTrees.createTree(myMat2) 

{'spInd': ©0, 'spVal': matrix([[ 0.499171]]), 'right': {'spIind': 0， 
'spVal': matrix([[ 0.457563]]), 'right': -3.6244789069767438, 
'left': 7.9699461249999999}, '1 


0, 'spVal': matrix([[ 0.958512]]), 'right': 112.42895575000001， 
'left': 105.248 


2350000001}}}} 
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图 9-3 将 图 9-1 的 数据 的 y 轴 放大 100 倍 后 的 新 数据 集 


不 知 你 注意 到 没有 ， 从 图 9-1 数 据 集 构建 出 来 的 树 只 有 两 个 叶 节 点 ， 而 
这 里 构建 的 新 树 则 有 很 多 叶 节 点 。 产 生 这 个 现象 的 原因 在 于 ， 停 止 条 件 
tolS 对 误差 的 数量 级 十 分 敏感 。 如 果 在 选项 中 人 花费 时 间 并 对 上 述 误 差 容 
妨 度 取 平 方 值 ， 或 许 也 能 得 到 仪 有 两 个 叶 市 点 组 成 的 树 : 

>>> regTrees.createTree(myMat2, ops=(10000, 4)) 


{'spInd': 0, 'spVal': matrix([[ 0.499171]]), 'right': -2.6377193297872341, 
'left': 101.35815937735855} 











然而 ， 通 过 不 断 修改 停止 条 件 来 得 到 合理 结果 并 不 是 很 好 的 办 法 。 事 实 
上 ， 我 们 常常 甚至 不 确定 到 底 需要 寻找 什么 样 的 结果 。 这 正 是 机 器 学 习 





所 关注 的 内 容 ， 计 算 机 应 该 可 以 给 出 总 体 的 概貌 。 


下 节 将 讨论 后 六 校 ， 即 利用 测试 集 来 对 树 进 行 王 校 。 由 于 不 需要 用 户 指 
定 参 数 ， 后 甬 枝 是 一 个 更 理想 化 的 驴 术 方法 。 


9.4.2 ”后 前 枝 


使 用 后 前 枝 方 法 需要 将 数据 集 分 成 测试 集 和 训练 集 。 首 先 指定 参数 ， 使 
得 构建 出 的 树 足 够 大 、 足 够 复杂 ， 便 于 和 剪 校 。 接 下 来 从 上 而 下 找到 叶 节 
Be 点 合并 是 人 否 能 降低 测试 误差 。 如 果 是 的 
TH 马 但 o 


函数 prune0O 的 伪 代 码 如 下 : 


基于 已 有 的 树 切 分 测试 数据 : 

如 果 存在 任 -一 子 集 是 一 棵 树 ， 则 在 该 子 集 递 归 剪 枝 过 程 
计算 将 当前 两 个 叶 节 点 合并 后 的 误差 
计算 不 合并 的 误差 
如 果 合 并 会 降低 误差 的 话 ， 就 将 叶 节 点 合并 















































为 了 解 实际 效果 ， 打 开 regTrees .py 并 输入 程序 清单 9-3 的 代码 。 
程序 清单 9-3 回归 树 草 校 函 数 


def isTree(obj): 
return (type(obj). name =='dict') 





def getMean(tree): 
If isTree(tree['right']): tree['right'] = getMean(tree['right']) 
If isTree(tree['left']): tree['left'] = getMean(tree['left']) 
return (tree['left']+tree['right'])/2.0 


3 





def prune(tree, testData): 
# 没有 测试 数据 则 对 树 进行 塌陷 处 理 
If shape(testData)[0] == 0: return getMean(tree) 
if (isTree(tree['right']) or isTree(tree['left'])): 
lSet, rSet = binSplitDataSset(testData, tree['spInd'],tree['spVal']) 
If isTree(tree['left']): tree['left'] = prune(tree['left'], lSet) 
if isTree(tree['right']): tree['right'] = prune(tree['right'], rset) 
If not isTree(tree['left']) and not isTree(tree['right"']): 
lSet, rSet = binSplitDataset(testData, tree['spInd'],tree['spVal']) 
errorNoMerge = sum(power(lSet[:,-1] - tree['left'],2)) +sum(power(rSet[:, 
treeMean = (tree['left']+tree['right'])/2.0 
errorMerge = sum(power(testData[:,-1] - treeMean,2)) 
if errorMerge < errorNoMerge: 
print "merging" 
return treeMean 
else: return tree 
else: return tree 


























程序 清单 9-3 中 包含 三 个 函数 : isTree()、getMean() 和 prune()。 其 中 
isTree() 用 于 测试 输入 变量 是 否 是 一 株 树 ， 返 回 布尔 闫 型 的 结 末 。 换 名 
话说 ， 该 函数 用 于 判断 当前 处 理 的 节点 是 否 是 叶 节 点 。 


图 数 getMean() 是 一 个 递归 函数 ， 它 从 上 往 下 壳 历 树 直到 叶 贡 点 为 止 。 
如 果 找 到 两 个 叶 厄 点 则 计算 它们 的 平均 值 。 该 函数 对 树 进 行 场 陷 处 理 
( 即 返 回 树 平均 值 )》， 在 prune() 冰 数 中 调用 该 函数 时 应 明确 这 一 点 。 


程序 清单 9-3 的 主 函 数 是 prune()， 它 有 两 个 参数 : 待 剪 枝 的 树 与 剪 枝 所 
需 的 测试 数据 testData。prune() 函 数 首先 需要 确认 测试 集 是 否 为 空 @@。 
一 旦 非 空 ， 则 反复 递归 调用 函数 prune() 对 测试 数据 进行 切 分 。 因 为 树 
是 由 其 他 数据 集 〈 训 练 集 ) 生成 的 ， 所 以 测试 集 上 会 有 一 些 样本 与 原 数 
据 集 样 本 的 取 值 范围 不 同 。 一 旦 出 现 这 种 情况 应 当 怎 么 办 ?数据 发 生 过 
拟 合 应 该 进行 前 枝 吗 ? 或 者 模型 正确 不 需要 任何 剪 枝 ? 这 里 假设 发 生 了 
过 拟 合 ， 从 而 对 树 进 行 前 枝 。 


接 下 来 要 检查 菏 个 分 文 到 展 是 子 树 还 是 节点 。 如 条 是 子 树 ， 就 调用 函 
数 prune() 来 对 该 子 树 进 行 甬 校 。 在 对 左右 两 个 分 文 完成 筋 枢 之 后 ， 还 
再 要 检查 它们 是 人 否 仍然 还 是 了 于 树 。 如 果 两 个 分 文 已 经 不 再 是 子 树 ， 那 么 
就 可 以 进行 合并 。 有 具体 做 法 是 对 合并 前 后 的 误 妆 进行 比较 。 如 果 合 并 后 
的 误 兰 比 不 合并 的 误 兰 小 就 进行 合并 操作 ， 反 之 则 不 合并 直接 返回 。 
接 下 来 看 看 实际 效果 ， 将 程序 清单 9-3 的 代码 添加 到 regTrees.py 文 件 并 
保存 ， 在 Python 提示 符 下 输入 下 面 的 命令 : 


>>> reload(regTrees) 
<module 'regTrees' from 'regTrees.pyc'> 




















为 了 创建 所 有 可 能 中 最 大 的 树 ， 输 入 如 下 命令 : 


>>> myTree=regTrees.createTree(myMat2, ops=(0,1)) 


输入 以 下 命令 导入 测试 数据 : 


>>> myDatTest=regTrees.1loadDataSet('ex2test .txt') 
>>> myMat2Test=mat (myDatTest) 


输入 以 下 命令 ， 执 行 剪 术 过 程 : 


>>> regTrees.prune(myTree, myMat2Test) 
merging 
merging 
merging 


merging 
{'spInd': 0, 'spVal': matrix([[ 0.499171]])， 'right': {'spInd': 0, 'spVal': 


01, "left': {'spInd': 0, 'spVal': matrix([[ 0.960398]]), 'right': 123.559747, 
'left': 112.386764}}}, 'left': 92.523991499999994}}}} 





可 以 看 到 ， 大 量 的 季 点 已 经 被 王 校 挥 了 ， 但 没有 像 预 期 的 那样 极 枝 成 两 
部 分 ， 这 说 明 后 甬 枝 可 能 不 如 预 醚 枝 有 效 。 一 般 地 ， 为 了 寻求 最 佳 模 型 
可 以 同时 使 用 两 种 盘 校 技术。 


下 节 将 重用 部 分 已 有 的 树 构 建 代 码 来 创建 一 种 新 的 树 。 该 树 仍 采用 二 元 
切 分 ， 但 叶 贡 点 不 再 是 简单 的 数值 ， 取 而 代 之 的 是 一 些 线性 模型 。 


9.5 ”模型 树 


用 树 来 对 数据 建 模 ， 除 了 把 时 节点 简单 地 设 定 为 稼 数值 之 外 ， 还 有 一 种 
方法 是 把 时 节点 设 定 为 分 段 线性 函数 ， 这 里 所 谓 的 分 段 线性 (piecewise 
linear) 是 指 模型 由 多 个 线性 片段 组 成 。 如 果 读 者 仍 不 清楚 ， 下 面 很 快 

束 会 给 出 样 例 来 帮助 理解 。 考 虑 图 9-4 中 的 数据 ， 如 果 使 用 两 条 直线 拟 

合 是 否 比 使 用 一 组 常数 来 建 模 好 呢 。? 答案 显而易见 。 可 以 设计 两 条 分 
别 从 0.0~0.3、 从 0.3~1.0 的 直线 ， 于 是 就 可 以 得 到 两 个 线性 模型 。 因 为 数 
据 集 里 的 一 部 分 数据 (0.0~0.3〉 以 某 个 线性 模型 建 模 ， 而 男 一 部 分 数据 
eS 
4 吕 I 











决策 树 相 比 于 其 他 机 器 学 习 算 法 的 优势 之 一 在 于 结果 更 易 理 解 。 很 显 
然 ， 两 条 直线 比 很 多 节点 组 成 一 棵 大 树 更 容易 解释 。 模 型 树 的 可 解释 性 
古 它 优 于 回归 树 的 特点 之 一 。 另 外 ， 模 型 树 也 具有 更 高 的 预测 准确 度 。 
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图 9-4 用 来 测试 模型 树 构 建 函数 的 分 段 线 性 数据 


前 面 的 代码 稍 加 修改 就 可 以 在 叶 节 点 生成 线性 模型 而 不 是 党 数值。 下 面 
将 利用 树 生 成 算法 对 数据 进行 切 分 ， 且 每 份 切 分 数据 都 能 很 容易 被 线性 
模型 所 表示 。 该 算法 的 关键 在 于 误差 的 计算 。 


前 面 已 经 给 出 了 树 构 建 的 代码 ， 但 是 这 里 仍然 需要 给 出 每 次 切 分 时 用 于 
误差 计算 的 代码 。 不 知道 读者 是 否 还 记得 之 前 createTree() 函 数 里 有 两 
个 参数 从 未 改变 过 。 回 归 树 把 这 两 个 参数 固定 ， 而 此 处 略 做 修改 ， 从 而 
将 前 面 的 代码 重用 于 模型 树 。 


下 一 个 问题 就 是 ， 为 了 找到 了 最 佳 切 分 ， 应 该 怎样 计算 误 兰 呢 ? 前 面 用 于 
回归 树 的 误差 计算 方法 这 里 不 能 再 用 。 稍 加 变化 ， 对 于 给 定 的 数据 集 ， 
应 该 先 用 线性 的 模型 来 对 它 进行 拟 合 ， 然 后 计算 真实 的 目标 值 与 模型 预 
测 值 间 的 差 值 。 最 后 将 这 些 差 值 的 平方 求 和 就 得 到 了 所 需 的 误差 。 为 了 














解 实际 效果 ， 打 开 regTrees.py 文 件 并 加 入 如 下 代码 。 
程序 清单 9-4 模型 树 的 叶 节 点 生成 函数 


def linearSolve(dataSet): 
m,n = shape(dataset) 
# @ (以 下 两 行 ) 将 X 与 Y 中 的 数据 格式 化 
X= mat(ones((m,n))); Y = mat(ones((m,1))) 
Xx[:,1:n] = dataSset[:,0:n-1]; Y = dataset[:,-1] 
XTX = X.T*X 
if linalg.det(xTx) == 0.0: 
raise NameError('This matrix is singular, cannot do inverse \n\ 
try increasing the second value of ops') 
ws = xTx.I * (X.T * Y) 
return ws,X,Y 





de 


h 


modelLeaf (dataSset ) : 
ws,X,Y = linearSolve(dataSet) 
return ws 


def modelErr(dataSset): 
ws,X,Y = linearSolve(dataSet) 
yHat = X * ws 
return sum(power(Y - yHat, 2)) 


上 述 程序 清单 中 的 第 一 个 函数 是 linearsolve( )， 它 会 被 其 他 两 个 函数 
调用 。 其 主要 功能 是 将 数据 集 格式 化 成 目标 变 旱 Y 和 日 变量 x @, 与 第 8 
章 一 笠 ，X 和 Y 用 于 执行 简单 的 线性 回 与 。 妃 外 在 这 个 函数 中 也 应 当 注 

， 如 果 和 矩阵 的 逆 不 存在 也 会 造成 程序 异常 。 


第 二 个 a 与 程序 清单 9-2 里 的 函数 regLeaf( ) 类 似 ， 当 数据 
不 再 需要 切 分 的 时 候 它 负 贡生 成 时 节点 的 模型 。 该 函数 在 数据 集 上 调 
用 1linearsolve( ) 并 返回 回归 系数 ws。 


最 后 一 个 函数 是 modelErr()， 可 以 在 给 定 的 数据 集 上 计算 误差 。 它 与 程 
序 清 单 9-2 的 函数 regErr() 类 似 ， 会 被 chooseBestSp1Lit( 
佳 的 切 分 。 访 函数 在 数据 集 上 调用 linearsolve()， 之 后 返回 yhat 和 Y 之 
间 的 平方 误差 。 


至 此 ， 使 用 程序 清单 9-1 和 9-2 中 的 函数 构建 模型 树 的 全 部 代码 己 经 完 
成 。 为 了 解 实际 效果 ， 保 存 regTrees .py 文件 并 在 Python 提示 符 下 输入 : 


>>> reload(regTrees) 
<module 'regTrees' from 'regTrees.pyc'> 














图 9-4 的 数据 已 保存 在 一 个 用 tab 键 为 分 隅 符 的 文本 文件 exp2.txt 里 。 


>>> myMat2 = mat(regTrees.loadDataSet('exp2.txt')) 


为 了 调用 函数 createTree() 和 模型 树 的 函数 ， 需 将 模型 树 函 数 作 
为 createTree( ) 的 参数 ， 输入 下 面 的 命令 : 


>>> regTrees.createTree(myMat2, regTrees.modelLeaf, regTrees.modelErr, (1,10)) 
{'spInd': 0, 'spVal': matrix([[ 0.285477]]), 'right': matrix([[3.46877936], [ 1.1 


03], 
[ 1.19647739e+01]])} 


可 以 看 到 ， 该 代码 以 0.285 ”477 为 界 创建 了 两 个 模型 ， 而 图 9-4 的 数据 实 
际 在 0.3 处 分 段 。createTree() 生 成 的 这 两 个 线性 模型 分 别 是 y = 3.468 
+ 1.1852 和 y = 0.001 698 5 + 11.964 77x， 与 用 于 生成 该 数据 的 真实 
模型 非常 接近 。 该 数据 实际 是 由 模型 y = 3.5 + 1.0x 和 y = 0 + 12x 再 
加 上 高 斯 噪声 生成 的 。 在 图 9-5 上 可 以 看 到 图 9-4 的 数据 以 及 生成 的 线性 
模型 。 
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图 9-5 在 图 9-4 数 据 集 上 应 用 模型 树 算 法 得 到 的 结果 


模型 树 、 回 归 树 以 及 第 8 章 里 的 其 他 模型 ， 哪 一 种 模型 更 好 呢 ? 一 个 比 
较 客 观 的 方法 是 计算 相关 系数 ， 也 称 为 R: 值 。 该 相关 系数 可 以 通过 调用 
NumPy 库 中 的 命令 corrcoef(yHat， y, rowvar=0) 来 求解 ， 其 中 yHat 是 预 
测 值 ，y 是 目标 变量 的 实际 值 。 


前 一 章 使 用 了 标准 的 线性 回归 法 ， 本 章 则 使 用 了 树 回 归 法 ， 下 面 将 通过 
ee 








9.6 示例 : 树 回 归 与 标准 回归 的 比较 


前 面 介 绍 了 模型 树 、 回 归 树 和 一 般 的 回归 方法 ， 下 面 测试 一 下 哪个 模型 
最 好 。 本 节 首 先 给 出 一 些 函 数 ， 它 们 可 以 在 树 构 建 好 的 情况 下 对 给 定 的 
输入 进行 预测 ， 之 后 利用 这 些 函 数 来 计算 三 种 回归 模型 的 测试 误 甜 。 这 
人 
速度 的 关系 。 


这 里 的 数据 是 非 线 性 的 ， 不 能 简单 地 使 用 第 8 章 的 全 局 线性 模型 建 模 。 
当然 这 里 也 需要 声明 一 下 ， 此 数据 纯 属 虚构 。 


下 面 先 给 出 在 给 定 输入 和 树 结构 情况 下 进行 预测 的 几 个 函数 。 打 
开 regTrees.py 并 加 入 如 下 代码 。 


程序 清单 9-5 用 树 回归 进行 预测 的 代码 


def regTreeEval(model, inDat): 
return float(model) 


def modelTreeEval(model, inDat): 
n = shape(inDat)[1] 
X = mat(ones((1,n+1))) 
X[:,1:n+1]=inDat 
return float(X*model) 


def treeForeCast(tree, inData, modelEval=regTreeEval): 
if not isTree(tree): return modelEval(tree, inData) 
If inData[tree['spInd']] > tree['spVal']: 
If isTree(tree['left'|): 
return treeForeCast(tree['left'], inData , modelEval) 
else: 
return modelEval(tree['left'], inData) 
else: 
If isTree(tree['right"']): 
return treeForeCast(tree['right'], inData , modelEval) 
else: 
return modelEval(tree['right'], inData) 


def createForeCast(tree, testData, modelEval=regTreeEval): 
m=len(testData) 
yHat = mat(zeros((m,1))) 
for i in range(m): 
yHat[i,0] = treeForeCast(tree, mat(testData[i]), modelEval) 
return yHat 


对 于 输入 的 单个 数据 点 或 者 行 回 量 ， 函 数 treeForecast() 会 返回 一 个 浮 





点 值 。 在 给 定 树 结构 的 情况 下 ， 对 于 单个 数据 点 ， 该 函数 会 给 出 一 个 预 
测 值 。 调 用 函数 treeForecast() 时 需要 指定 树 的 类 型 ， 以 便 在 叶 节 点 上 
能 够 调用 合适 的 模型 ”。 参 数 modelEval 是 对 叶 节 点 数据 进行 预测 的 函数 
的 引用 。 函 数 treeForecast() 自 顶 向 下 遍历 整 棵 树 ， 直 到 命中 叶 节 点 为 
止 。 一 旦 到 达 叶 节点 ， 它 就 会 在 输入 数据 上 调用 modelEval() 函 数 ， 而 
该 函数 的 默认 值 是 regTreeEval( ) 。 


要 对 回归 树叶 节点 进行 预测 ， 就 调用 函数 regTreeEval(); 要 对 模型 树 
节点 进行 预测 时 ， 就 调用 modelTreeEval() 函 数 。 它 们 会 对 输入 数据 进行 
格式 化 处 理 ， 在 原 数据 矩阵 上 增加 第 0 列 ， 然 后 计算 并 返回 预测 值 。 为 
了 与 函数 modelTreeEval() 保 持 一 致 ， 尽管 regTreeEval() 只 使 用 一 个 输 
入 ， 但 仍 保留 了 两 个 输入 参数 。 


最 后 一 个 函数 是 createForcast()， 它 会 多 次 调用 treeForecast() 畏 数 。 
由 于 它 能 够 以 癌 量 形式 返回 的 一 组 预测 值 ， 因 此 该 函数 在 对 整个 测试 集 
进行 预测 时 非常 有 用 。 下 面 很 快 会 看 到 这 一 点 。 


接 下 来 考虑 图 9-6 所 示 的 数据 。 该 数据 是 我 从 多 个 骑 自 行车 的 人 那里 收 
集 得 到 的 。 图 中 给 出 骑 自 行车 的 速度 和 人 的 智商 之 间 的 关系 。 下 面 将 基 
于 该 数据 集 建立 多 个 模型 并 在 另 一 个 测试 集 上 进行 测试 。 对 应 的 训练 集 
数据 保存 在 文件 bikespeedvsIq_train.txt 中 ， 而 测试 集 数据 保存 在 文件 


bikeSpeedVsIq_test.txt 中 。 
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图 9-6 人们 骑 目 行车 的 速度 和 他 们 智商 之 间 的 关系 数据 。 该 数据 用 于 
比较 树 回归 模型 和 普通 的 线性 回归 模型 


下 面 将 为 图 9-6 的 数据 构建 三 个 模型 。 首 先 ， 将 程序 清单 9-5 中 的 代码 保 
存 为 regTrees.py， 然 后 在 Python 提示 符 下 输入 以 下 命令 : 


>>>reload(regTrees ) 


接 下 来 ， 利 用 该 数据 创建 一 棵 回归 树 : 


>>> trainMat=mat(regTrees.loadDataSet('bikeSpeedVsIq train.txt"')) 
>>> testMat=mat (regTrees.1loadDataSet('bikeSpeedVsIq_ test.txt')) 
>>> myTree=regTrees.createTree(trainMat, ops=(1,20)) 

>>> yHat = regTrees.createForeCast(myTree, testMat[:,0]) 

>>> corrcoef(yHat, testMat[:,1],rowvar=0)[0,1] 
0.96408523182221306 


同样 地 ， 再 创建 一 棵 模型 树 : 


>>> myTree=regTrees,createTree(trainMat，regTrees ,modeJLeaf ， 
regTrees.modelErr, (1,20)) 


>>> yHat = regTrees.createForeCast(myTree, testMat[:,0], 
regTrees.modelTreeEval) 

>>> corrcoef(yHat, testMat[:,1],rowvar=0)[0,1] 

0.9760412191380623 


我 们 知道 ，R* 值 越 接 近 1.0 越 好 ， 所 以 从 上 面 的 结果 可 以 看 出 ， 这 里 模型 
树 的 结果 比 回归 树 好 。 下 面 再 看 看 标准 的 线性 回归 效果 如 何 ， 这 里 无 须 
导入 第 8 章 的 任何 代码 ， 本 章 已 实现 过 一 个 线性 方程 求解 函 

数 LinearSsolve(): 





>>> ws,X,Y=regTrees.linearSolve(trainMat) 
>>> ws 
matrix([[ 37.58916794], 

[ 6.18978355]]) 


为 了 得 到 测试 集 上 所 有 的 ytHat 预 测 值 ， 在 测试 数据 上 循环 执行 : 


>>> for i in range(shape(testMat)[0]): 
yHat[i]=testMat[i,0]*ws[1,0]+ws[90,0] 


最 后 来 看 一 下 R 值 : 


>>> corrcoef(yHat, testMat[:,1],rowvar=0)[0,1] 
0.94346842356747584 


可 以 看 到 ， 该 方法 在 R' 值 上 的 表现 上 不 如 上 面 两 种 树 回 归 方 法 。 所 以 ， 
树 回归 方法 在 预测 复杂 数据 时 会 比 简单 的 线性 模型 更 有 效 ， 相 信 读 者 对 
这 个 结论 也 不 会 感到 意外 。 下 面 将 展示 如 何 对 同月 本 型 进 行 定性 的 此 
讽 。 


下 面 使 用 Python 提 供 的 框架 来 构建 图 形 用 户 界 面 (GUI)〉， 读 者 可 以 使 
用 该 GUI 来 探 完 不 同 的 回归 工具 。 














9.7 ”使 用 Python 的 Tkinter 库 创建 GUI 


机 器 学 习 给 我 们 提供 了 一 些 强 大 的 工具 ， 能 从 未 知 数据 中 抽取 出 有 用 的 
言 轧 。 因 此 ， 能 否 将 这 些 信息 以 易于 人 们 理解 的 方式 呈现 十 分 重要 。 再 
者 ， 假 如 人 们 可 以 直接 与 算法 和 数据 交互 ， 将 可 以 比较 轻松 地 进行 解 

释 。 如 果 仪 仅 只 是 绘制 出 一 幅 静 态 图 像 ， 或 者 只 是 在 Python 命 令 行 中 输 
出 一 些 数字 ， 那 么 对 结果 做 分 析 和 交流 将 非常 困难 。 如 果 能 让 用 户 不 需 
要 任何 指令 束 可 以 按照 他 们 自己 的 方式 来 分 析 数 据 ， 就 不 需要 对 数据 做 
出 过 多 解释 。 其 中 一 个 能 同时 支持 数据 呈现 和 用 户 交 互 的 方式 就 是 构建 
一 个 图 形 用 户 界面 (GUI，Graphical User Interface ) ， 如 图 9-7 所 示 。 











图 9-7 默认 的 treeExplore 图 形 用 户 界 面 ， 该 界面 同时 显示 了 输入 数据 
和 一 个 回归 树 模 型 ， 其 中 的 参数 tolN = 10，tols = 1.0 


示例 : 利用 GUI 对 回归 树 调 优 


1. 收集 数据 : 所 提供 的 文本 文件 。 


[Be 


. 准备 数据 : 用 Python 解析 上 述 文 件 ， 得 到 数值 型 数据 。 
3. 分 析 数 据 : 用 Tkinter 构 建 一 个 GUI 来 展示 模型 和 数据 。 
4. 00 训练 一 株 回 归 树 和 一 标 模 型 树 ， 并 与 数据 集 一 起 展示 出 


.测试 算法 :这 里 不 需要 测试 过 程 。 
6. 使 用 算法 ，GUI 使 得 人 们 可 以 在 预 剪 枝 时 测试 不 同 参数 的 影响 ， 还 
可 以 帮助 我 们 选择 模型 的 类 型 。 


接 下 来 将 介绍 如 何 用 Python 来 构建 GUI。 首先 介绍 如 何 利 用 一 个 现 有 的 
模块 Tkinter 来 构建 GUI， 之 后 介绍 如 何在 Tlinter 和 给 库 之 间 交 互 ， 最 
后 通过 创建 GUI 使 人 们 能 够 自 己 探索 模型 树 和 回归 树 的 奥秘 。 

9.7.1 用 Tkinter 创 建 GUI 

Python 有 很 多 GUI 框架 ， 其 中 一 个 易于 使 用 的 Tkinter， 是 随 Python 的 标 
准 编译 版 本 发 布 的 。Tkinter 可 以 在 Windows、Mac OS 和 大 多 数 的 Linux 
平台 上 使 用 。 


人 下面 先 从 最 向 四 内 Hello World 例 子 开 始 。 在 Python 提示 符 下 输入 以 下 命 
< 


Ul 





>>> from Tkinter import * 
>>> root = Tk() 





这 时 会 出 现 一 个 小 窗口 或 者 一 些 错 误 提 示 。 要 想 在 窗口 上 显示 一 些 文 
字 ， 可 以 输入 如 下 命令 : 


>>> myLabel = Label(root, text="Hello World") 
>>> myLabel .grid() 


输入 完毕 后 ， 文 本 框 里 就 会 显示 出 你 刚才 输入 的 文字 。 非 常 简 单 吧 ! 
为 了 程序 的 完整 ， 应 该 再 输入 以 下 命令 : 


>>> root.mainloop() 








这 条 命令 将 启动 事件 循环 ， 使 该 窗口 在 众多 事件 中 可 以 响应 鼠标 点 击 、 
按键 和 重 绘 等 动作 。 


Tkinter 的 GUI 由 一 些小 部 件 (Widget) 组 成 。 所 谓 小 部 件 ， 指 的 是 文本 
框 (Text Box) 、 按 钮 (Button) 、 标 签 (Label) 和 复 选 按钮 (Check 
Button ) 等 对 象 。 在 刚才 的 Hello World 例 子 中 ， 标 签 myLabe1 就 是 其 中 唯 
一 的 小 部 件 。 当 调用 myLabe1l 的 .grid() 方 法 时 ， 就 等 于 把 myLabe1l 的 位 置 
告诉 了 布局 管理 器 〈Geometry Manager) 。Tkinter 中 提供 了 几 种 不 同 的 
布局 管理 器 ， 其 中 的 .grid() 方 法 会 把 小 部 件 安排 在 一 个 二 维 的 表格 

中 。 用 户 可 以 设 定 每 个 小 部 件 所 在 的 行列 位 置 。 这 里 没有 做 任何 设 

定 ，myLabel 会 默认 显示 在 0 行 0 列 。 


下 面 将 所 需 的 小 部 件 集成 在 一 起 构建 树 管理 器 。 建 立 一 个 新 的 Python 文 
件 treeExplore.py， 并 在 其 中 加 入 程序 清单 9-6 的 代码 。 


程序 清单 9-6 ”用 于 构建 树 管 理 器 界面 的 Tkinter 小 部 件 
from numpy import * 


from Tkinter import * 
import regTrees 


def reDraw(tolS, tolN): 
pass 


def drawNewTree(): 
pass 


root=Tk() 
Label(root, text="Plot Place Holder").grid(row=0, columnspan=3) 


Label(root, text="tolN").grid(row=1, column=0) 

tolNentry = Entry(root) 

tolNentry.grid(row=1, column=1) 

tolNentry.insert(0,'10') 

Label(root, text="tolS").grid(row=2, column=0) 

tolSentry = Entry(root) 

tolSentry.grid(row=2, column=1) 

tolSentry.insert(0,'1.0') 

Button(root, text="ReDraw", command=drawNewTree).grid(row=1, column=2,rowspan=3) 
chkBtnvar = IntVar() 

chkBtn = Checkbutton(root, text="Model] Tree", variable = chkBtnVar) 
chkBtn.grid(row=3, column=0, columnspan=2) 


reDraw.rawDat = mat(regTrees.loadDataset('sine.txt')) 
reDraw.testDat = arange(min(reDraw.rawDat[:,0]),max(reDraw.rawDat[:,0]),90.01) 


reDraw(1.0, 10) 


root.mainloop() 


程序 清单 9-6 的 代码 建立 了 一 组 Tkinter 模 块 ， 并 用 网 格 布局 管理 器 安排 


了 它们 的 位 置 ， 这 里 还 给 出 了 两 个 绘制 占 位 符 (plot ”placeholder) 函 
数 ， 这 两 个 函数 的 内 容 会 在 后 面 补 充 。 这 里 所 使 用 代码 的 格式 与 前 面 的 
例子 一 致 ， 即 首先 创建 一 个 Tk 类 型 的 根部 件 然后 插入 标签 。 读 者 可 以 使 
用 .grid() 方 法 设 定 行 和 列 的 位 置 。 另 外 ， 也 可 以 通过 设 定 columnspan 和 
rowspan 的 值 来 告诉 布局 管理 嚣 是否 允许 一 个 小 部 件 跨行 或 跨 列 。 除 此 

之 外 还 有 其 他 设置 项 可 供 使 用 。 


还 有 一 些 新 的 小 部 件 暂 时 未 使 用 ， 这 些小 部 件 包括 文本 输入 框 

(Entry) 、 复 选 按钮 (checkbutton) 和 按钮 整数 值 (Intvar) 等 。 其 
中 Entry 部 件 是 一 个 允许 单行 文本 输入 的 文本 框 。 Checkbutton 和 IntVvar 
的 功能 显而易见 ， 为 了 读 取 checkbutton 的 状态 需要 创建 一 个 变量 ， 也 

就 是 IntVar。 

最 后 初始 化 一 些 与 repraw() 关 联 的 全 局 变量 ， 这 些 变量 会 在 后 面 用 到 。 

这 里 没有 给 出 “退出 ”按钮 ， 因 为 如 果 用 户 想 退出 ， 可 以 通过 点 击 右上 和 角 
关闭 整个 窗口 ， 增 加 额外 的 退出 按钮 有 点 多 此 一 举 。 假 如 读者 真 的 想 添 
加 一 个 的 话 ， 可 以 输入 下 面 的 代码 来 实现 : 


Button(root, text='Quit',fg="black", command=root.quit).grid(row=1,column=2) 








保存 程序 清单 9-6 的 代码 并 执行 ， 可 以 看 到 与 图 9-8 类 似 的 图 。 


Plot Place Holder 





tolN|10 





tolS |1.0 
厂 Model Tree 





图 9-8 ”使 用 多 个 Tkinter 部 件 创 建 的 树 管 理 器 


现在 GUI 可 以 按照 要 求 正常 运行 了 ， 下 面 利用 它 来 绘图 。 接 下 来 的 小 节 
中 将 在 同一 幅 图 上 绘 出 原始 数据 集 及 其 对 应 的 树 回 归 预 测 值 。 


9.7.2 ”集成 Matplotlib 和 Tkinter 








本 书 已 经 用 Matplotlib 绘 制 过 很 多 图 像 ， 能 人 否 将 这 些 图 像 直接 放 在 GUI 上 
呢 ? 下 面 将 首先 介绍 “后 端 ” 的 概念 ， 然 后 通过 修改 Matplotlib 后 端 〈 仅 在 
我 们 的 GULF ) 达到 在 Tkinter 的 GUI 上 绘图 的 目的 。 


Matplotlib 的 构建 程序 包含 一 个 前 器， 也 就 是 面 癌 用 户 的 一 些 代 码 ， 如 
plot() 和 scatter() 方 法 等 。 事 实 上 ， 它 同时 创建 了 一 个 后 端 ， 用 于 实现 
绘图 和 不 同 应 用 之 间接 口 。 通 过 改变 后 端 可 以 将 图 像 绘制 在 PNG、 
PDF、SVG 等 格式 的 文件 上 。 下 面 将 设置 后 端 为 TkAgg (Agg 是 一 个 
C++ 的 库 ， 可 以 从 图 像 创 建 光 栅 图 ') 。TkAgg 可 以 在 所 选 GUI 框架 上 调 
用 Agg， 把 Agg 呈 现在 画布 上 。 我 们 可 以 在 Tk 的 GUI 上 放置 一 个 画布 ， 

并 用 .grid() 来 调整 布局 。 


1. 光栅 图 也 称 为 位 图 、 点 阵 图 、 像 素 图 ， 按 点 阵 保存 图 像 ， 放 大 会 有 失真 。 与 光栅 图 相对 的 是 矢量 图 ， 也 称 为 向 量 图 。 一 一 译 者 注 


先 用 画布 来 瞧 换 绘制 占 位 符 ， 删 挥 对 应 标签 并 添加 以 下 代码 : 


reDraw.f = Figure(figsize=(5,4), dpi=100) 

reDraw.canvas = FigureCanvasTkAgg(reDraw.f, master=root) 
reDraw.canvas. show() 
reDraw.canvas.get_ tk_ widget().grid(row=0, columnspan=3) 











现在 将 树 创 建 函 数 与 该 画布 链接 起 来 。 看 一 下 实际 效果 ， 打 
开 treeExplore.py 并 添加 下 面 的 代码 。 注 意 我 们 之 前 实现 过 repraw( ) 和 
drawTree() 的 存根 Cstub) ， 确 保 同 一 个 函数 不 要 重复 出 现 。 


程序 清单 9-7 Matplotlib 和 Tkinter 的 代码 集成 


import matplotlib 

matplotlib.use('TkAgg') 

from matplotlib,.backends.backend_ tkagg import FigureCanvasTkAgg 
from matplotlib.figure import Figure 





def reDraw(tolS, tolN): 
reDraw.f.clf() 
reDraw.a = reDraw.f.add_subplot(111) 
if chkBtnVar.get(): 
#@ 检查 复 选 框 是 否 选 中 
if tolN < 2: tolN= 2 
myTree=regTrees.createTree(reDraw.rawDat, regTrees.modelLeaf,regTrees.mod 
yHat = regTrees.createForeCast(myTree, reDraw.testDat, regTrees.modelTreel 
else: 
myTree=regTrees.createTree(reDraw.rawDat, ops=(tolS, tolN)) 
yHat = regTrees.createForeCast(myTree, reDraw.testDat) 
reDraw.a.scatter(reDraw.rawDat[:,0], reDraw.rawDat[:,1], s=5) 
reDraw.a.plot(reDraw.testDat, yHat, linewidth=2.0) 
reDraw.canvas. show!() 








def getInputs( ) : 

try: tolN = int(tolNentry.get()) 

except: 
tolN = 10 
print "enter Integer for tolN" 
#@@ (以 下 两 行 ) 清除 错误 的 输入 并 用 默认 值 替 换 
tolNentry.delete(0, END) 
tolNentry.insert(0,'10°') 

try: tolS = float(tolSentry.get()) 

except: 
tolS = 1.0 
print "enter Float for tolS" 
tolSentry.delete(0, END) 
tolSentry.insert(0,'1.0') 
return tolN,tolS 

















def drawNewTree( ): 
tolN, tolS = getIinputs() 
reDraw(tolS, tolN) 


上 述 程序 中 一 开始 导入 Matplotlib 文 件 并 设 定 后 端 为 TkAgg。 接 下 来 的 两 
个 import 声 明 将 TkAgg 和 Matplotlib 图 链接 起 来 。 


先 来 介绍 函数 drawNewTree()。 从 程序 清单 9-6 可 知 ， 在 有 人 点 击 ReDraw 
按钮 时 惑 会 调用 该 函数 。 函 数 实现 了 两 个 功能 : 第 一 ， 调 

用 getInputs() 方 法 得 到 输入 框 的 值 ， 第 二 ， 利 用 该 值 调用 repraw( ) 方 法 
生成 一 个 漂亮 的 图 。 下 面 对 这 些 函 数 进行 逐个 介绍 。 


函数 getInputs() 试 图 理解 用 户 的 输入 并 防止 程序 月 泥 。 其 中 tols 期 望 的 
输入 是 浮 点 数 ， 而 tolN 期 望 的 输入 是 整数 。 为 了 得 到 用 户 输 入 的 文本 ， 
可 以 在 Entry 部 件 上 调用 .get() 方 法 。 虽 然 表 单 验证 会 在 GUI 编程 时 花费 
大 量 的 时 间 ， 但 这 一 点 对 于 用 户 体验 来 说 必 不 可 少 。 另 外 ， 这 里 使 用 了 
try: 和 except :模式 。 如 果 Python 可 以 把 输入 文本 解析 成 整数 就 继续 执 
行 ， 如 果 不 能 识别 则 输出 错误 消息 ， 同 时 清空 输入 框 并 恢复 其 默认 值 
@。 对 tols 而 言 也 存在 同样 的 处 理 过 程 ， 最 后 返回 输入 值 。 


函数 repraw( ) 的 主要 目的 是 把 树 绘 制 出 来 。 该 函数 假定 输入 是 合法 的 ， 
它 首 先 要 做 的 是 清空 之 前 的 图 像 ， 使 得 前 后 两 个 图 像 不 会 重合 。 清 空 时 
图 像 的 各 个 子 图 也 都 会 被 清除 ， 所 以 需要 重新 添加 一 个 新 图 。 接 下 来 函 
数 会 检查 复 选 框 是 否 被 选中 介 。 根 据 复 选 框 是 否 被 选中 ， 确 定 基 于 tols 
和 tolN 参 数 构 建 模 型 树 还 是 回归 树 。 当 树 构 建 完成 之 后 束 对 测试 集 
testpat 进 行 预测 ， 该 测试 集 与 训练 集 有 相同 的 范围 且 点 的 分 布 均匀 。 
最 后 ， 真 实数 据 和 预测 值 都 被 绘制 出 来 。 具 体 实现 是 ， 真 实 值 采 

用 scatter() 方 法 绘制 ， 而 预测 值 则 采用 plot() 方 法 绘制 ， 这 古 因 























为 scatter() 方 法 构建 的 是 离散 型 散 点 图 ， 而 plot() 方 法 则 构建 连续 曲 
线 ， 


下 面 看 一 下 实际 效果 ， 保 存 treeExplore.py 并 执行 。 如 果 恋 者 使 用 开发 
环境 IDE 来 编码 ， 那 么 可 以 用 run 命 令 来 运行 程序 。 在 命令 行 下 可 以 直接 
使 用 命令 python treeExplore.py 来 运行 。 执 行 完 之 后 应 该 可 以 看 到 类 似 
于 图 9-7 的 结果 。 


图 9-7 的 GUI 包含 了 图 9-8 所 有 的 小 部 件 ， 而 占 位 符 采 用 Matplotlib 图 蔡 
换 。 默 认 情 况 下 会 给 出 一 棵 包含 八 个 叶 节点 的 回归 树 (参见 图 9-7)〉。 
我 们 也 可 以 尝试 模型 树 。 通 过 选中 模型 树 的 复 选 框 ， 再 点 击 ReDraw 按 
钮 ， 就 应 该 可 以 看 到 类 似 于 图 9-9 的 模型 树 结 














图 9-9 用 treeExplore 的 GUI 构建 的 模型 树 ， 该 图 使 用 了 与 图 9-7 相 同 
的 数据 和 参数 。 与 回归 树 相 比 ， 模 型 树 取得 了 更 好 的 预测 效果 


读者 可 以 在 上 述 treeExplore 中 尝试 不 同 的 参数 值 。 整 个 数据 集 包 含 200 
个 样本 ， 可 以 将 tolN 设 为 150 后 观察 执行 效果 。 为 构建 尽 可 能 大 的 树 ， 
应 当 将 tolN 设 为 1， 将 tolS 设 为 0。 读 者 可 以 测试 一 下 并 观察 执行 的 效 
he 





9.8 本章 小 结 


数据 集中 经 第 包含 一 些 复杂 的 相互 关系 ， 使 得 输入 数据 和 目标 变量 之 间 
呈现 非 线性 关系 。 对 这 些 复杂 的 关系 建 模 ， 一 种 可 行 的 方式 是 使 用 树 来 
对 预测 值 分 段 ， 包 括 分 段 常 数 或 分 段 直线 。 一 般 采 用 树 结构 来 对 这 种 数 
据 建 模 。 相 应 地 ， 奉 叶 节 点 使 用 的 模型 是 分 段 第 数 则 称 为 回归 树 ， 寿 叶 
节点 使 用 的 模型 是 线性 回归 方程 则 称 为 模型 树 。 


CARTI 算 法 可 以 用 于 构建 二 元 树 并 处 理 离散 型 或 连续 型 数据 的 切 分 。 春 
使 用 不 同 的 误差 准则 ， 就 可 以 通过 CART 算 法 构建 模型 树 和 回归 树 。 该 
算法 构建 出 的 树 会 倾向 于 对 数据 过 拟 合 。 一 棵 过 拟 合 的 树 常 常 十 分 复 
杂 ， 盘 枝 技 术 的 出 现 束 是 为 了 解决 这 个 问题 。 两 种 前 校方 法 分 别 是 预 配 
枝 《〈 在 树 的 构建 过 程 中 就 进行 剪 校 ) 和 后 剪 校 〈 当 树 构建 完毕 再 进行 剪 
校 ) ， 预 剪 权 更 有 效 但 需要 有 用户 定义 一 些 参 数 。 


Tkinter 是 Python 的 一 个 GUI 工具 包 。 虽 然 并 不 是 唯一 的 包 ， 但 它 最 常 
用 。 利 用 Tkinter， 我 们 可 以 轻松 绘制 各 种 部 件 并 灵活 安排 它们 的 位 置 。 
另外 ， 可 以 为 Tkinter 构 造 一 个 特殊 的 部 件 来 显示 Matplotlib 绘 出 的 图 。 所 
以 ，Matplotlib 和 Tkinter 的 集成 可 以 构建 出 更 强大 的 GUI， 用 户 可 以 以 更 
自然 的 方式 来 探索 机 器 学 习 算法 的 奥妙 。 


本 章 是 回归 的 最 后 一 章 ， 和 希望 读者 没有 错过 。 接 下 来 我 们 将 离开 监督 学 
习 的 岛屿 ， 驶 同 无 监督 学 习 的 未 知 港湾 。 在 回归 和 分 类 〈 监 督学 习 ) 
中 ， 目 标 变 量 的 值 是 已 知 的 。 在 后 面 的 章节 将 会 看 到 ， 无 监督 学 习 中 上 
述 条 件 将 不 再 成 芯 。 下 一 章 的 主要 内 容 是 k 均 值 聚 类 算法 。 





























第 三 部 分 “无 监督 学 习 


这 一 部 分 介绍 的 是 无 监督 机 器 学 习 方法 。 该 主题 与 前 两 部 分 有 所 不 同 。 
在 无 监督 学 习 中 ， 类 似 分 类 和 回归 中 的 目标 变量 事先 并 不 存在 。 与 前 
面 “ 对 于 输入 数据 X 能 预测 变量 Y” 不 同 的 是 ， 这 里 要 回答 的 问题 是 : “从 
数据 X 中 能 发 现 什么 ? ” 这 里 需要 回答 的 X 方 面 的 问题 可 能 是 : “构成 X 
的 最 佳 6 个 数据 簇 部 是 哪些 ? ”或 者 “X 中 哪 三 个 特征 最 频繁 共 现 ? ” 


第 10 章 介绍 了 无 监督 学 习 中 的 聚 类 《将 相似 项 聚 团 ) 方法 ， 包 括 k 均 值 
聚 类 算法 。 第 11 章 介绍 了 基于 Apriori 算 法 的 关联 分 析 或 者 称 购 物 篮 分 
析 。 关 联 分 析 可 以 用 于 回答 “哪些 物品 经 常 被 同时 购买 ? ”之 类 的 问题 。 
无 监督 学 习 部 分 的 最 后 一 章 ， 即 第 12 章 将 介绍 一 个 更 高 效 的 关联 分 析 算 
法 : FP-growth 算 法 。 




















第 10 章 ”利用 开 - 均 值 聚 类 算法 对 未 标 
注 数 据 分 组 
本 章 内 容 


k 均 值 聚 类 算法 

对 聚 类 得 到 的 艇 进行 后 处 理 
二 分 k 均 值 聚 类 算法 

对 地 理 位 置 进行 聚 类 


在 2000 年 和 2004 年 的 美国 总 统 大 选中 ， 候 选 人 的 得 票数 比较 接近 或 者 说 
非常 接近 。 任 一 候选 人 得 到 的 普选 票数 的 最 大 百分比 为 50.7%， 而 最 小 
百分比 为 47.9%。 如 果 1% 的 选民 将 手中 的 选票 投 回 男 外 的 候选 人 ， 那 么 
选举 结果 就 会 截然 不 同 。 实 际 上 ， 如 果 受 善 加 以 引导 与 吸引 ， 少 部 分 选 
民 就 会 转换 立场 。 尽 管 这 类 选举 者 占 的 比例 较 低 ， 但 当 候 选 人 的 选票 接 
近 时 ， 这 些 人 的 立场 无 疑 会 对 选举 结果 产生 非常 大 的 影响 :。 如 何 找 出 这 
类 选民 ， 以 及 如 何在 有 限 的 预算 下 采取 措施 来 吸引 他 们 ? 答案 就 是 聚 类 
(Clustering) 。 

















1. 对 于 微 目标 策略 如 何 成 功用 于 2004 年 的 美国 总 统 大 选 的 细节 ， 请 参见 Fournier、Sosnik 与 Dowd 合 著 的 Applebee's America (Simon & Schuster, 2006) 一 书 。 


接 下 来 介绍 如 何 通 过 珍 类 实现 上 述 目 标 。 首 先 ， 收 集 用 户 的 信息 ， 可 以 
同时 收集 用 户 满 意 或 不 满意 的 信息 ， 这 是 因为 任何 对 用 户 重要 的 内 容 都 
可 能 影响 用 户 的 投标 结果。 然后， 将 这 些 信 息 输入 到 某 个 聚 类 算法 中 。 
接着 ， 对 聚 类 结果 中 的 每 一 个 迄 〈 最 好 选择 最 大 复 ) ， 精 心 构造 能 够 吸 
引 该 族 选 民 的 消 恩 。 最 后 ， 开 展 苋 选 活动 并 观察 上 述 做 法 是 否 有 效 。 


聚 类 是 一 种 无 监督 的 学 习 ， 它 将 相似 的 对 象 归 到 同一 个 簇 中 。 它 有 点 像 
全 目 动 分 类 :。 聚 类 方法 几乎 可 以 应 用 于 所 有 对 象 ， 秘 内 的 对 象 越 相似 ， 
聚 类 的 效果 越 好 。 本 章 要 学 习 一 种 称 为 k- 均 值 (K-mean) 聚 类 的 算法 。 
之 所 以 称 之 为 k 均 值 是 因为 它 可 以 发 现 k 个 不 同 的 艇 ， 且 每 个 徐 的 中 心 采 
用 簇 中 所 舍 值 的 均值 计算 而 成 。 下 面 会 逐步 介绍 该 算法 的 更 多 细节 。 


2. 这 里 的 自动 意思 是 连 类 别 体系 都 是 自动 构建 的 。 一 一 译 者 注 


























在 介绍 k 均 值 算 法 之 前 ， 先 讨论 一 下 簇 识别 (cluster identification)〉。 敌 
识别 给 出 聚 类 结果 的 含义 。 假 定 有 一 些 数 据 ， 现 在 将 相似 数据 归 到 一 
起 ， 艇 识别 会 告诉 我 们 这 些 艇 到 底 都 是 些 什 么 。 聚 类 与 分 类 的 最 大 不 同 
在 于 ， 分 类 的 目标 事先 已 知 ， 而 聚 类 则 不 一 样 。 因 为 其 产生 的 结果 与 分 
类 相同 ， 而 只 是 类 别 没 有 预先 定义 ， 聚 类 有 时 也 被 称 为 无 监督 分 类 
(unsupervised classification ) 。 


聚 类 分 析 试 图 将 相似 对 象 归 入 同一 簇 ， 将 不 相似 对 象 归 到 不 同族 。 相 似 
这 一 概念 取决 于 所 选择 的 相似 度 计 算 方 法 。 前 面 章 市 已 经 介绍 了 不 同 的 
相似 度 计算 方法 ， 后 续 半 市 它们 会 继续 出 现 。 到 底 使 用 哪 种 相似 度 计算 
方法 取决 于 具体 应 用 。 


下 面 会 构建 k 均 值 方法 并 观察 其 实际 效果 。 接 下 来 还 会 讨论 简单 k 均 值 算 
法 中 的 一 些 缺 陷 。 为 了 解雇 其 中 的 一 些 缺 陷 ， 可 以 通过 后 处 理 来 产生 更 
好 的 徐 。 接 着 会 给 出 一 个 更 有 效 的 称 为 二 分 k 鬼 值 (bisecting k-means) 
的 聚 类 算法 。 本 章 的 最 后 会 给 出 一 个 实例 ， 该 实例 应 用 二 分 k 均 值 算法 
来 寻找 同时 造访 多 个 夜生活 热点 地 区 的 最 佳 停车 位 。 

















10.1 Kk 均 值 聚 类 算法 
k 均 值 聚 类 


优点 : 容易 实现 。 
缺点 : 可 能 收敛 到 局 部 最 小 值 ， 在 大 规模 数据 集 上 收 人 比较 慢 。 
适用 数据 类 型 : 数值 型 数据 。 


k 均 值 是 发 现 给 定数 据 集 的 k 个 簇 的 算法 。 艇 个 数 k 是 用 户 给 定 的 ， 每 一 
个 禾 通 过 其 质心 (centroid，〉 ， 即 簇 中 所 有 点 的 中 心 来 描述 。 


k 均 值 算法 的 工作 流程 是 这 样 的 。 首 先 ， 随 机 确定 K 个 初始 点 作为 质心 。 
然后 将 数据 集中 的 每 个 点 分 配 到 一 个 镑 中 ， 有 具体 来 讲 ， 为 每 个 点 找 距 其 
最 近 的 质心 ， 并 将 其 分 配给 该 质心 所 对 应 的 禾 。 这 一 步 完 成 之 后 ， 每 个 
簇 的 质心 更 新 为 该 簇 所 有 点 的 平均 值 。 


上 述 过 程 的 伪 代 码 表示 如 下 : 





创建 k 个 点 作为 起 始 质 心 ( 经 常 是 随机 选择 ) 
当 任 意 一 个 点 的 簇 分 配 结果 发 生 改变 时 
对 数据 集中 的 每 个 数据 点 
对 每 个 质心 
计算 质心 与 数据 点 之 间 的 距离 
将 数据 点 分 配 到 距 其 最 近 的 复 
对 每 一 个 徐 ， 计 算 徐 中 所 有 点 的 均值 并 将 均值 作为 质心 






























































K 均 值 聚 类 的 一 般 流程 


1. 收集 数据 : 使 用 任意 方法 。 

2. 准备 数据 : 需要 数值 型 数据 来 计算 距离 ， 也 可 以 将 标 称 型 数据 映射 
为 二 值 型 数据 再 用 于 距离 计算 。 

3. 分 析 数 据 : 使 用 任意 方法 。 

4. 训练 算法 : 不 适用 于 无 监督 学 习 ， 即 无 监督 学 习 没 有 训练 过 程 。 

5. 测试 算法 : 应 用 聚 类 算法 、 观 察 结 果 。 可 以 使 用 量化 的 误 兰 指标 如 
误差 平方 和 《后 面 会 介绍 ) 来 评价 算法 的 结果 。 

6. 使 用 算法 : 可 以 用 于 所 希望 的 任何 应 用 。 通 常情 况 下 ， 艇 质心 可 以 
代表 整个 秘 的 数据 来 做 出 决策 。 








上 面 担 到“ 最近? 质心 的 说 法 ， 意 味 独 需要 进行 茶 种 距离 计算 。 读 者 可 以 
使 用 所 喜欢 的 任意 距离 度量 方法 。 数 据 集 上 k 均 值 算 法 的 性 能 会 受到 所 
选 距离 计算 方法 的 影响 。 下 面 给 出 k 均 值 算 法 的 代码 实现 。 首 先 创 建 一 
为 kMeans.py 的 文件 ， 然 后 将 下 面 程序 清单 中 的 代码 添加 到 文件 





程序 清单 10-1k 均 值 聚 类 支持 函数 
from numpy Import * 


def loadDataSet (fileName): 

dataMat = [] 

fr = open(fileName) 

for line in fr.readlines(): 
curLine = line.strip().split('\t') 
fltLine = map(float,curLine) 
dataMat .append(fltLine) 

return dataMat 


de 


< 


distEclud(vecA, vecB): 
return sqrt(sum(power(vecA - vecB, 2))) 


de 


< 


randCcent(dataset, k): 
n = Shape(dataSet )[1] 
centroids = mat(zeros((k,n))) 
# 构 建 簇 质 心 
for j in range(n): 
minJ = min(dataset[:,j]) 
rangeJ = float(max(dataSet[:,j]) - minJ 
entroids[:,j] = minJ + rangeJ * random,rand(k,I) 
return centroids 





程序 清单 10-1 中 的 代码 包含 几 个 k 均 值 算法 中 要 用 到 的 辅助 函数 。 第 一 
个 函数 loadpataset() 和 上 一 章 完全 相同 ， 它 将 文本 文件 导入 到 一 个 列 
表 中 。 文 本 文件 每 一 行为 tab 分 隔 的 浮 点 数 。 每 一 个 列表 会 被 添加 

到 dataMat 中 ， 最 后 返回 dataMat。 该 返回 值 是 一 个 包含 许多 其 他 列表 的 
列表 。 这 种 格式 可 以 很 容易 将 很 多 值 封装 到 矩阵 中 。 


下 一 个 函数 distEclud() 计 算 两 个 辐 量 的 欧式 距离 。 这 古本 章 最 先 使 用 
的 距离 函数 ， 也 可 以 使 用 其 他 距离 函数 。 


最 后 一 个 函数 是 randcent()， 该 函数 为 给 定数 据 集 构建 一 个 包含 K 个 随 

机 质心 的 集合 。 随 机 质心 必须 要 在 整个 数据 集 的 边界 之 内 ， 这 可 以 通过 
找到 数据 集 每 一 维 的 最 小 和 最 大 值 来 完成 。 然 后 生成 0 到 1.0 之 间 的 随机 
数 并 通过 取 值 范围 和 最 小 值 ， 以 便 确 保 随 机 点 在 数据 的 边界 之 内 ”。 接 
下 来 看 一 下 这 三 个 函数 的 实际 效果 。 保 存 kMeans.py 文 件 ， 然 后 在 Python 











提示 符 下 输入 : 


>>> import kMeans 
>>> from numpy import * 





要 从 文本 文件 中 构建 算 阵 ， 输 入 下 面 的 命令 第 10 章 的 源 代码 中 给 出 了 


testSset.txt 的 内 容 〉: 


>>> datMat=mat (kMeans.1loadDataSet('testSet.txt')) 


读者 可 以 了 解 一 下 这 个 二 维 窍 阵 ， 后 面 将 使 用 该 矩阵 来 测试 完整 的 k 鬼 
值 算法 。 下 面 看 看 randcent() 函 数 是 否 正常 运行 。 首 先 ， 先 看 一 下 矩阵 
中 的 最 大 值 与 最 小 值 : 


>>> min(datMat[:,0]) 
matrix([[-5.379713]]) 
>>> min(datMat[:,1]) 
matrix([[-4.232586]]) 
>>> max(datMat[:,1]) 
matrix([[ 5.1904]]) 

>>> max(datMat[:,0]) 
matrix([[ 4.838138]]) 








然后 看 看 randcent() 函 数 能 否 生成 min 到 max 之 间 的 值 : 


>>> kMeans.randCent(datMat, 2) 
matrix([[-3.24278889, -0.04213842], 
[-0.92437171, 3.19524231]]) 


从 上 面 的 结果 可 以 看 到 ， 函 数 randcent() 确 实 会 生成 min 到 max 之 间 的 
值 。 上 述 结 末 表 明 ， 这 些 函 数 都 能 够 按照 预想 的 方式 运行 。 最 后 测试 一 
下 距离 计算 方法 : 

>>> kMeans.distEclud(datMat[0], datMat[1]) 

5.184632816681332 








所 有 支持 函数 正常 运行 之 后 ， 就 可 以 准备 实现 完整 的 k 均 值 算法 了 。 该 
算法 会 创建 k 个 质心 ， 然 后 将 每 个 点 分 配 到 最 近 的 质心 ， 再 重新 计算 质 
心 。 这 个 过 程 重复 数 次 ， 直 到 数据 点 的 簇 分 配 结果 不 再 改变 为 止 。 打 
开 kMeans .py 文件 输入 下 面 程序 清单 中 的 代码 。 





程序 清单 10-2 kk 均值 聚 类 算法 


def kMeans(dataSet, k, distMeas=distEclud, createCent=randCent): 
m = shape(dataSset)[0] 
clusterAssment = mat(zeros((m,2))) 
centroids = createCent(dataset, k) 
clusterChanged = True 
while clusterChanged: 
clusterChanged = False 
for i in range(m): 
minDist = inf; minIndex = -1 
for j in range(k): 
#@ (以 下 三 行 ) 寻找 最 近 的 质心 








distJI = distMeas(centroids[j,:],dataset[i,:]) 
if distJI < minDist: 
minDist = distJI; minIndex = Jj 
If clusterAssment[i,0] != minIndex: clusterChanged = True 
clusterAssment[i,:] = minIndex,minDist**2 
# 人 @ (以 下 四 行 ) 更 新 质心 的 位 置 
print centroids 
for cent in range(k): 
ptsInClust = dataSset[nonzero(clusterAssment[:,0].A==cent)[0]] 
centroids[cent,:] = mean(ptsInClust, axis=0) 
return centroids, clusterAssment 























上 述 清单 给 出 了 k 均 值 算法 。kMeans() 函 数 接受 4 个 输入 参数 。 只 有 数据 
集 及 簇 的 数目 是 必 选 参数 ， 而 用 来 计算 距离 和 创建 初始 质心 的 函数 都 是 
可 选 的 。kMeans() 函 数 一 开 始 确定 数据 集中 数据 点 的 总 数 ， 然 后 创建 一 
个 矩阵 来 存储 每 个 点 的 复 分 配 结果 。 复 分 配 结果 矩阵 clusterAssment 包 
含 两 列 : 一 列 记录 簇 索 引 值 ， 第 二 列 存储 误 拳 。 这 里 的 误差 是 指 当 前 点 
到 簇 质 心 的 距离 ， 后 边 会 使 用 该 误差 来 评价 聚 类 的 效果 。 


按照 上 述 方式 〈 即 计算 质心 -分 配 -重新 计算 ) 反复 迭代 ， 直 到 所 有 数据 
点 的 簇 分 配 结果 不 再 改变 为 止 。 程 序 中 可 以 创建 一 个 标志 变量 
clusterChanged, 如 果 该 值 为 True， 则 继续 迭代 。 上 述 从 代 使 用 while 循 
环 来 实现 。 接 下 来 过 历 所 有 数据 找到 距离 每 个 点 最 近 的 质心 ， 这 可 以 通 
过 对 每 个 点 遍历 所 有 质心 并 计算 点 到 每 个 质心 的 距离 来 完成 @。 计 算 距 
离 是 使 用 distMeas 参 数 给 出 的 距离 函数 ， 默 认 距 离 困 数 是 distEclud( )， 
该 函数 的 实现 已 经 在 程序 清单 10-1 中 给 出 。 如 有 条 任 一 点 的 簇 分 配 结果 发 
生 改 变 ， 则 更 新 clusterchanged 标 志 。 


最 后 ， 明 历 所 有 质心 并 更 新 它们 的 取 值 @。 具 体 实 现 步骤 如 下 : 首先 通 
过 数组 过 小 来 获得 给 定 簇 的 所 有 点 ; 然后 计算 所 有 点 的 均值 ， 选 项 axis 
= ”0 表示 沿 和 矩阵 的 列 方 回 进行 均值 计算 ; 最 后 ， 程 序 返回 所 有 的 类 质心 
与 把 分 配 结果 。 图 10-1 给 出 了 一 个 聚 类 结果 的 示意 图 。 
































图 10-1 kk 均值 聚 类 的 结果 示意 图 。 图 中 数据 集 在 三 次 达 代 之 后 收敛 。 
形状 相似 的 数据 点 被 分 到 同样 的 复 中 ， 艇 中 心 使 用 十 字 来 表示 

接 下 来 看 看 程序 清单 10-2 的 运行 效果 。 保 存 kMeans .py 文件 后 ， 在 Python 
提示 符 下 输入 : 


>>> reload(kMeans) 
<module 'kMeans' from 'kMeans.pyc'> 


如 果 没 有 将 前 面 例子 中 的 datMat 数 据 复制 过 来 ， 则 可 以 输入 下 面 的 命令 
〈 记 住 要 导入 NumPy) : 


>>> datMat=mat (kMeans.1loadDataSet('testSet.txt')) 








现在 就 可 以 对 datMat 中 的 数据 点 进行 聚 类 处 理 。 从 图 像 中 可 以 大 概 预 完 
知道 最 后 的 结果 应 该 有 4 个 秘 ， 所 以 可 以 输入 如 下 命令 : 


>>> myCentroids, clustAssing = kMeans.kMeans(datMat,4) 
[[-4.06724228 0.21993975] 
73633558 -1.41299247] 
59754537 3.15378974] 
49190084 3.46005807]] 
62111442 -2.36505947] 
21588922 -2.88365904] 
38799628 2.96837672] 
6265299 3.10868015]] 
53973889 -2.89384326] 
65077367 -2.79019029] 
46154315 2.78737555] 
6265299 3.10868015]] 
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上 面 的 结果 给 出 了 4 个 质心 。 可 以 看 到 ， 经 过 3 次 碗 代 之 后 k 均 值 算法 收 
化。 这 4 个 质心 以 及 原始 数据 的 散 点 图 在 图 10-1 中 给 出 。 


到 目前 为 止 ， 关 于 聚 类 的 一 切 进 展 都 很 顺利 ， 但 事情 并 不 总 是 如 此 。 接 
下 来 会 讨论 k 均 值 算法 可 能 出 现 的 问题 及 其 解决 办 法 。 





10.2 ”使 用 后 处 理 来 提高 聚 关 性 能 


前 面 提 到 ， 在 k 均 值 聚 类 中 族 的 数目 k 是 一 个 用 户 预 和 完 定义 的 参数 ， 那 么 
用 户 如 何 才 能 知道 k 的 选择 是 否 正 确 ? 如 何 才能 知道 生成 的 簇 比较 好 
呢 ? 在 包含 艇 分 配 结果 的 和 矩阵 中 保存 者 每 个 点 的 误差 ， 即 该 点 到 艇 质心 
的 距离 平方 值 。 下 面 会 讨论 利用 该 误差 来 评价 上 聚 类 质量 的 方法 。 


考虑 图 10-2 中 的 聚 类 结果 ， 这 是 在 一 个 包含 三 个 艇 的 数据 集 上 运行 k 均 
值 算法 之 后 的 结果 ， 但 是 点 的 簇 分 配 结果 值 没 有 那么 准确 。k 均 值 算法 
收敛 但 聚 类 效果 较 差 的 原因 是 ，k 均 值 算法 收敛 到 了 局 部 最 小 值 ， 而 非 
全 局 最 小 值 〈《 局 部 最 小 值 指 结果 还 可 以 但 并 非 最 好 结果 ， 全 局 最 小 值 是 
可 能 的 最 好 结果 ) 。 
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图 10-2 ”由 于 质心 随机 初始 化 导致 均值 算法 效果 不 好 的 一 个 例子 ， 这 
需要 额外 的 后 处 理 操作 来 清理 聚 类 结 


-种 用 于 度量 聚 类 效果 的 指标 是 SSE (Sum of Squared Error， 误 差 平方 
和 ) ， 对 应 程序 清单 10-2 中 clusterAssment 和 矩阵 的 第 一 列 之 和 。SSE 值 











越 小 表示 数据 点 越 接 近 于 它们 的 质心 ， 聚 类 效果 也 越 好 。 因 为 对 误差 取 
了 平方 ， 因 此 更 加 重视 那些 远离 中 心 的 点 。 一 种 肯定 可 以 降低 SSE 值 的 
方法 是 增加 化 的 个 数 ， 但 这 违背 了 聚 类 的 目标 。 吧 类 的 目标 是 在 保持 簇 
数目 不 变 的 情况 下 提高 复 的 质量 。 


那么 如 何 对 图 10-2 的 结果 进行 改进 ? 你 可 以 对 生成 的 艇 进行 后 处 理 ， 一 
种 方法 是 将 具有 最 大 SSE 值 的 秘 划 分 成 两 个 禾 。 其 体 实现 时 可 以 将 最 大 
簇 包 含 的 点 过 滤 出 来 并 在 这 些 点 上 运行 k 均 值 算法 ， 其 中 的 k 设 为 2。 


为 了 保持 艇 总 数 不 变 ， 可 以 将 菜 两 个 通 进 行 合并 。 从 疼 10-2 中 很 明显 就 
可 以 看 出 ， 应 该 将 图 下 部 两 个 出 错 的 艇 质心 进行 合并 。 可 以 很 容易 对 二 
维 数据 上 的 聚 类 进行 可 视 化 ， 但 是 如 果 遇 到 40 维 的 数据 应 该 如 何 去 做 ? 


有 两 种 可 以 量化 的 办 法 : 合并 最 近 的 质心 ， 或 者 合并 两 个 使 得 SSE 增 幅 
最 小 的 质心 。 第 一 种 思路 通过 计算 所 有 质心 之 间 的 距离 ， 然 后 合并 距离 
最 近 的 两 个 点 来 实现 。 第 二 种 方法 需要 合并 两 个 艇 然后 计算 总 SSE 值 。 
必须 在 所 有 可 能 的 两 个 艇 上 重复 上 述 处 理 过 程 ， 直 到 找到 合并 最 佳 的 两 
Dy 
0 




















10.3 ”二 分 k 均 值 算法 


为 元 服 k 均 值 算法 收 钱 于 局 部 最 小 值 的 问题 ， 有 人 提出 了 男 一 个 称 为 二 

分 k 均 值 (bisecting ”KK -means) 的 算法 。 该 算法 首先 将 所 有 点 作为 一 个 
禾 ， 然 后 将 该 簇 一 分 为 二 。 之 后 选择 其 中 一 个 簇 继续 进行 划分 ， 选 择 哪 
一 个 簇 进行 划分 取决 于 对 其 划分 是 否 可 以 最 大 程度 降低 SSE 的 值 。 上 述 
基于 SSE 的 划分 过 程 不 断 重 复 ， 直 到 得 到 用 户 指 定 的 簇 数目 为止。 


二 分 k 均 值 算法 的 伪 代 码 形式 如 下 : 


将 所 有 点 看 成 一 个 徐 

当 艇 数目 小 于 Kk 时 
对 于 每 一 个 簇 

计算 总 误差 

在 给 定 的 复 上 面 进行 K 均 值 聚 类 (K=2) 

计算 将 该 复 一 分 为 二 之 后 的 总 误差 

选择 使 得 误差 最 小 的 那个 簇 进行 划分 操作 




































































男 一 种 做 法 是 选择 SSE 最 大 的 禾 进 行 划 分 ， 直 到 簇 数 目 达 到 用 户 指 定 的 
数目 为 止 。 这 个 做 法 听 起 来 并 不 难 实现 。 下 面 束 来 看 一 下 该 算法 的 实际 
效果 。 打 开 kMeans .py 文件 然后 加 入 下 面 程序 清单 中 的 代码 。 


程序 清单 10-3” 二 分 K 均 值 聚 类 算法 


def bikmeans(dataSet, k, distMeas=distEclud): 
m = shape(dataSet)[0] 
clusterAssment = mat(zeros((m,2))) 
#@@ (以 下 两 行 ) 创建 一 个 初始 簇 
centroid0 = mean(dataSet, axis=0).tolist()[0] 
centList =[centroid0] 
for j in range(m): 
clusterAssment[j,1] = distMeas(mat(centroid0), dataSet[j,:])**2 
while (len(centList) < k): 
lowestSSE = inf 
for i in range(len(centList)): 
# 人 @ (以 下 两 行 ) 尝试 划分 每 一 簇 
ptsInCurrCluster =dataSset[nonzero(clusterAssment[:,0].A==i)[0],:] 
centroidMat, splitClustAss = kMeans(ptsInCurrCluster, 2 , distMeas) 
sseSplit = sum(splitClustAss[:,1]) 
sseNotSplit = sum(clusterAssment[nonzero(clusterAssment[:,0].A!=i) 











[9],1]) 
print "sseSplit, and notSplit: ",sseSplit,sseNotSplit 
If (sseSplit + sseNotSplit) < LowestSSE: 
bestCentToSplit = i 
bestNewCents = centroidMat 
bestClustAss = splitClustAss.copy() 
lowestSSE = sseSplit + sseNotSplit 
#@ (以 下 两 行 ) 更 新 簇 的 分 配 结果 





bestClustAss[nonzero(bestClustAss[:,0].A == 1)[0],0] =len(centList) 
bestCclustAss[nonzero(bestClustAss[:,0].A == 0)[0],0] =bestCentToSplit 
print 'the bestCentToSp1lit is: ',bestCentToSplit 
print 'the len of bestClustAss is: ', len(bestClustAss) 
centList[bestCentToSplit] = bestNewCents[0,:] 
centList.append(bestNewCents[1,:]) 
clusterAssment[nonzero(clusterAssment[:,0] .A == bestCentToSplit) 
[0],:]= bestCclustAss 
return mat(centList), clusterAssment 


上 述 程 序 中 的 函数 与 程序 清单 10-2 中 函数 kMeans( ) 的 参数 相同 。 在 给 定 
数据 集 、 所 期 望 的 复数 目 和 距离 计算 方法 的 条 件 下 ， 函 数 返 回 聚 类 结 
果 。 同 kMeans() 一 样 ， 用 户 可 以 改变 所 使 用 的 距离 计算 方法 。 


该 函数 首先 创建 一 个 矩阵 来 存储 数据 集中 每 个 点 的 艇 分配 结果 及 平方 误 
差 ， 然 后 计算 整个 数据 集 的 质心 ， 并 使 用 一 个 列表 来 保留 所 有 的 质心 
四 .得 到 上 述 质 心 之 后 ， 可 以 所 历数 据 集 中 所 有 点 来 计算 每 个 点 到 质心 
的 误差 值 。 这 些 误 差 值 将 会 在 后 面 用 到 。 


接 下 来 程序 进入 while 循 环 ， 该 循环 会 不 停 对 簇 进行 划分 ， 直 到 得 到 想 
要 的 艇 数目 为 止 。 可 以 通过 考察 簇 列表 中 的 值 来 获得 当前 簇 的 数目 。 然 
后 吉 历 所 有 的 簇 来 决定 最 佳 的 簇 进行 划分 。 为 此 需要 比较 划分 前 后 的 
SSE。 一 开始 将 最 小 SSE 置 设 为 无 穷 大 ， 然 后 过 历 禾 列表 centList 中 的 
每 一 个 艇 。 对 每 个 徐 ， 将 该 徐 中 的 所 有 点 看 成 一 个 小 的 数据 集 
ptsInCurrCluster。 将 ptsIncurrcluster 输 入 到 函数 kMeans() 中 进行 处 理 
(K = 2) 。k 均 值 算 法 会 生成 两 个 质心 〈 徐 ) ， 同 时 给 出 每 个 徐 的 误差 
值 仿 。 这些 误差 与 剩余 数据 集 的 误差 之 和 作为 本 次 划分 的 误差 。 如 果 该 
划分 的 SSE 值 最 小 ， 则 本 次 划分 被 保存 。 一 旦 决定 了 要 划分 的 徐 ， 接 下 
来 就 要 实际 执行 划分 操作 。 划 分 操作 很 容易 ， 只 需要 将 要 划分 的 簇 中 所 
有 点 的 徐 分 配 结果 进行 修改 即 可 。 当 使 用 kMeans() 函 数 并 且 指 定 复数 为 
2 时 ， 会 得 到 两 个 编号 分 别 为 0 和 1 的 结 末 徐 。 需 要 将 这 些 艇 编号 修改 为 
划分 秘 及 新 加 簇 的 编号 ， 该 过 程 可 以 通过 两 个 数组 过 滤器 来 完成 @。 最 
后 ， 新 的 簇 分 配 结果 被 更 新 ， 新 的 质心 会 被 添加 到 centList 中 。 


当 while 循 环 结束 时 ， 同 kMeans() 冰 数 一 样 ， 函 数 返回 质心 列表 与 簇 分 
配 结果 。 


下 面 看 一 下 实际 运行 效果 。 将 程序 清单 10-3 中 的 代码 添加 到 文件 
kMeans .py 并 保存 ， 然 后 在 Python 提 示 符 下 输入 : 


>>> reload(kMeans) 





























<module 'kMeans' from "KMeans .py '> 


可 以 在 最 早 的 数据 集 上 运行 上 述 过 程 ， 也 可 以 通过 如 下 命令 来 导入 图 
10-2 中 那个 “ 较 难 ”的 数据 集 : 


>>> datMat3=mat (kMeans.1loadDataSet('testSet2.txt')) 


要 运行 函数 pikmeans()， 输 入 如 下 命令 : 


>>> centList,myNewAssments=kMeans.bikmeans(datMat3,3) 
sseSplit, and notSplit: 491.233299302 0.0 

the bestCentToSplit is: 0 

the len of bestClustAss is: 60 

sseSplit, and notSplit: 75.5010709203 35.9286648164 
sseSplit, and notSplit: 21.40716341 455.304634485 
the bestCentToSplit is: 0 

the len of bestClustAss is: 40 


现在 看 看 质心 结 


>>> centList 
[matrix([[-3.05126255, 3.2361123 ]]), matrix([[-0.28226155, -2.4449763 ]])， 
matrix([[ 3.1084241, 3.0396009]])] 





上 述 函 数 可 以 运行 多 次 ， 聚 类 会 收敛 到 全 局 最 小 值 ， 而 原始 的 kMeans() 
函数 侦 尔 会 陷入 局 部 最 小 值 。 图 10-3 给 出 了 数据 集 及 运行 bikmeans() 后 
的 的 质心 的 示意 图 。 
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图 10-3 ”运行 二 分 K 均 值 算法 后 的 秘 分 配 示 意图 ， 该 算法 总 是 产生 较 好 


的 聚 类 结 


前 面 已 经 运行 
集 上 。 下 一 节 





了 一 分 K 均 值 算法 ， 下 面 将 该 径 沪 应 用 于 一 些 真 实 的 数据 


将 利用 地 图 上 的 地 理 位 置 坐 标 进行 聚 类 。 


10.4 示例 : 对 地 图 上 的 点 进行 聚 类 


假如 有 这 样 一 种 情况 : 你 的 朋友 Drew 和 希望 你 带 他 去 城 里 庆祝 他 的 生 
日 。 由 于 其 他 一 些 朋 友 也 会 过 来 ， 所 以 需要 你 提供 一 个 大 家 都 可 行 的 计 
划 。Drew 给 了 你 一 些 他 希望 去 的 地 址 。 这 个 地 址 列表 很 长 ， 有 70 个 位 
置 。 我 把 这 个 列表 保存 在 文件 portland-clubs.txt 中 ， 该 文件 和 源 代码 
一 起 打包 。 这 些 地 址 其 实 痢 在 俄勒冈 州 的 波 特 兰 地 区 。 


也 就 是 说 ， 一 上 晚上 要 去 70 个 地 方 ! 你 要 决定 一 个 将 这 些 地 方 进 行 聚 类 的 
最 佳 集 略 ， 这 样 束 可 以 安排 交通 工具 抵达 这 些 艇 的 质心 ， 然 后 步行 到 每 
个 族 内 地 址 。Drew 的 清单 中 虽然 给 出 了 地 址 ， 但 是 并 没有 给 出 这 些 地 
址 之 间 的 距离 远近 信息 。 因 此 ， 你 要 得 到 每 个 地 址 的 纬度 和 经 度 ， 然 后 
对 这 些 地 址 进行 聚 类 以 安排 你 的 行程 。 


示例 : 对 于 地 理 数据 应 用 二 分 k 均 值 算法 





1. 收集 数据 : 使 用 Yahoo! PlaceFinder API 收 集 数据 。 

2. 准备 数据 : 只 保留 经 纬度 信息 。 

3. 人 使 用 Matplotlib 来 构建 一 个 二 维 数据 图 ， 其 中 包含 簇 与 
4. 训练 算法 : 训练 不 适用 无 监督 学 习 。 

5. 测试 算法 : 使 用 10.4 节 中 的 bikmeans() 函 数 。 

6. 使 用 算法 : 最 后 的 输出 是 包含 篮 及 复 中 心 的 地 图 。 


你 需要 一 个 服务 来 将 地 址 转换 为 纬度 和 经 度 。 泣 运 的 是 ， 雅 虎 提 供 了 这 
样 的 服务 。 下 面 将 介绍 Yahoo! PlaceFinder API 的 使 用 方法 。 然 后 ， 对 给 
| 最 后 男 出 所 有 点 以 及 簇 中 心 ， 并 看 看 聚 类 结果 
到 请 如 何 。 


10.4.1 Yahoo! PlaceFinder API 


雅虎 的 牛人 们 已 经 为 我 们 提供 了 一 个 免费 的 地 址 转换 API， 该 API 对 给 
定 的 地 址 返回 该 地 址 对 应 的 纬度 与 经 度 。 访 问 下 面 的 URL 可 以 了 解 更 多 
细节 : http://developer.yahoo.com/geo/placefinder/guide/。 


为 了 使 用 该 服务 ， 需 要 注册 以 获得 一 个 API key。 其 体 地 ， 你 需要 在 











Yahoo! 开 发 者 网 络 Chttp: /developer.yahoo.com/) 中 进行 注册 。 创 建 一 
个 果 面 应 用 后 会 获得 一 人 1 Ee 需要 appid 来 使 用 geocoder。 一 个 

geocoder 接 受 给 定 地 址 ， 然 后 返回 该 地 址 对 应 的 经 纬度 。 下 而 的 代码 将 
I 打开 kMeans .py 文件 ， 然 后 加 入 下 列 代 


程序 清单 10-4 Yahoo! PlaceFinder API 


import urllib 
import json 
def geoGrab(stAddress, city): 
apiStem = 'http://where.yahooapis.com/geocode?' 
params = 
#@ 将 返回 类 型 设 为 JSON 
params['flags'] = "J' 
params['appid'] = 'ppp6é8N8t" 
params['location'] = '%s %s' % (stAddress, city) 
url_params = urllib.urlencode(params) 
yahooApi = apiStem + url params 
#@ 打印 输出 的 的 URL 
print yahooApi 
c=urllib.urlopen(yahooApi) 
return json.loads(c.read()) 








from time import sleep 
def massPlaceFind(fileName): 
fw = open('places.txt', 'w') 
for line in open(fileName).readlines(): 
line = line.strip() 
lineArr = line.split('\t') 
retDict = geoGrab(lineArr[1], Cs 
if retDict[ ResultSet']['Error'] == 
lat = float(retDict['ResultSet' pe 'Results'][o]['latitude']) 
lng = float(retDict['ResultSet']['Results'][90]['longitude']) 
print "%s\t%f\t%f" % (lineArr[0], lat, lng) 
fw.write('%s\t%f\t%f\n' % (line, lat, lng)) 
else: print "error fetching" 
sleep(1) 
fw.close() 


上 述 程序 包含 两 个 函数 : geoGrab() 与 nassPlaceFind( )。 函数 geoGrab() 
从 Yahoo 返 回 一 个 字典 ，massPlaceFind() 将 所 有 这 些 封 装 起 来 并 且 将 相 
关 信 息 保 存 到 文件 中 。 


数 geoGrab() 中 ， 首 先 为 Yahoo ” API 设置 apistem， 然 后 创建 一 个 字 
典 。 你 可 以 为 字典 设置 不 同 值 ， 包括 flags = J， 以 便 返 回 JSON 格 式 的 
结果 @。 (不 用 担心 你 不 熟悉 JSON， 它 是 一 种 用 于 序列 化 数组 和 字典 

的 文件 格式 ， JSON 是 JavaScript Object 
Notation 的 缩写 ， 有 兴趣 的 读者 可 以 在 www.json.org 找 到 更 多 信息 。 ) 接 





下 来 使 用 ur1l1lib 的 urlencode( ) 函 数 将 创建 的 字典 转换 为 可 以 通过 URL 进 

行 传递 的 字符 串 格式 。 最 后 ， 打 开 UREL 读 取 返 回 值 。 由 于 返回 值 是 

ON 所 以 可 以 使 用 JSON 的 Python 模 块 来 将 其 解码 为 一 个 字 

是 返回 了 解码 后 的 字典 ， 也 就 意味 着 你 成 功 地 对 一 个 地 址 进行 了 
理 编 


程序 清单 10-4 中 的 第 二 个 函数 是 massPlaceFind()。 访 函数 打开 一 个 tab 
分 隅 的 文本 文件 ， 获 取 第 2 列 和 第 3 列 结果 。 这 些 值 被 输入 到 函 

数 geoGrab() 中 ， 然后 需要 检查 geoGrab() 的 输出 字典 判断 有 没有 错误 。 
如 果 没 有 错误 ， 就 可 以 从 字典 中 读 取经 纬度 。 这 些 值 被 添加 到 原来 对 应 
的 行 上 ， 同 时 写 到 一 个 新 的 文件 中 。 如 果 有 错误 ， 就 不 需要 去 抽取 纬度 
和 经 度 。 最 后 ， 调 用 sleep() 函 数 将 massPlaceFind() 国 数 延 迟 1 秒 。 这 样 
做 是 为 了 确保 不 要 在 短 时 间 内 过 于 频繁 地 调用 API。 如 果 频 繁 调用 ， 那 
人 封 反 ， 所 以 将 massPlaceFind() 函 数 的 调用 延迟 一 下 

区 好 。 


保存 kMeans .py 文件 后 ， 在 Python 提 示 符 下 输入 : 


>>> reload(kMeans) 
<module 'kMeans' from 'kMeans.py'> 








要 尝试 geo6rab， 输 入 街道 地 址 和 城市 的 字符 串 ， 比 如 : 


>>> geoResults=kMeans.geoGrab('1 VA Center', 'Augusta, ME') 
http://where.yahooapis.com/ 
geocode?flags=J&location=1+VA+tCenter+Augusta%2C+ME&appid=ppp68N6Kk 


实际 使 用 的 URL 会 被 打印 出 来 ， 通 过 这 些 URL， 用 户 可 以 看 到 具体 发 生 
了 什么 。 如 果 并 不 想 看 到 URL， 那 么 将 程序 清单 10-4 中 的 print 语 句 注 
释 掉 也 没关系 。 下 面 看 一 下 返回 结果 ， 应 该 是 一 个 很 大 的 字典 。 


>>> geoResults 

{u'ResultSet': {u'Locale': U'Uus_US', U'ErrorMessage': U'No error',u'Results': 
[{u'neighborhood': u'', u'house': u'1', uU'county': u'Kennebec County', u'street': 
uU'xstreet': u'', u'line4': u'United States', u'line3': u'', Uu'line2':u'Augusta, MI 
6410', u'line1': u'1 Center St', u'state': u'Maine',u'latitude': u'44.307661', u'| 
6410',u'name': u'', U'UZzZip': Uu'04330', U'country': u'United States',u'longitude': 








上 面 给 出 的 是 一 部 只 包含 键 Resultset 的 字典 ， 该 字典 又 包含 分 别 以 


Locale、 ErrorMessage、Results、version、Error、 Found 和 Quality 为 


键 的 其 他 字典 。 


读者 可 以 看 一 下 所 有 这 些 键 的 内 容 ， 不 过 我 们 主要 感 兴趣 的 还 是 Error 
和 和 Results。 


Error 键 值 给 出 的 是 错误 编码 。0 意 味 着 没有 错误 ， 其 他 任何 值 都 代表 没 
有 获得 要 找 的 地 址 。 可 以 输入 下 面 内 容 以 获得 错误 编码 : 


>>> geoResults['ResultSet']['Error'] 
0 








现在 看 一 下 纬度 和 经 度 ， 可 以 输入 如 下 命令 来 实现 : 


>>> geoResults['ResultSet']['Results'][0]['longitude'] 
U'" -69.776608 

>>> geoResults['ResultSet']['Results'][0]['latitude'] 
U 44.307661， 


上 面 给 出 的 都 是 字符 串 ， 可 以 使 用 float() 函 数 将 它们 转换 为 浮 点 数 。 
ae 输入 命令 执行 程序 清单 10-4 中 的 第 二 个 
函数 : 


>>> kMeans.massPlaceFind('portlandClubs.txt'"') 
Dolphin II 45.486502 -122.788346 


Magic Garden 45.524692 -122.674466 
Mary's Club 45.535101 -122.667390 
Montego's 45.504448 -122.500034 


这 会 在 你 的 工作 目录 下 生成 一 个 称 为 places.txt 的 文本 文件 。 接 下 来 将 
使 用 这 些 点 进行 聚 类 ， 并 将 俱乐部 以 及 它们 的 簇 中 心 画 在 城市 地 图 上 。 
10.4.2 ”对 地 理 坐 标 进 行 聚 类 

现在 我 们 有 一 个 包含 格式 化 地 理 坐 标的 列表 ， 接 下 来 可 以 对 这 些 俱乐部 
进行 聚 类 。 在 此 过 程 中 使 用 Yahoo! PlaceFinder API 来 获得 每 个 点 的 纬度 
和 经 度 。 下 面 需 要 使 用 这 些 信息 来 计算 数据 点 与 艇 质心 的 距离 。 


这 个 例子 中 要 聚 类 的 俱乐部 给 出 的 信息 为 经 度 和 维度 ， 但 这 些 信息 对 于 
距离 计算 还 不 够 。 在 北极 附近 每 走 几米 的 经 度 变 化 可 能 达到 数 10 度 ;而 





























在 赤道 附近 走 相 同 的 距离 ， 带 来 的 经 度 变 化 可 能 只 是 零点 几 。 可 以 使 用 
球面 余弦 定理 来 计算 两 个 经 纬度 之 间 的 距离 。 为 实现 距离 计算 并 将 聚 类 
人 
I 代码 。 


程序 清单 10-5 “球面 距离 计算 及 艇 绘图 函数 


def distSLC(vecA, vecB): 
a = sin(vecA[9,1]*pi/180) * sin(vecB[0,1]*pi/180) 
b = cos(vecA[90,1]*pi/180) * cos(vecB[0,1]*pi/180) * cos(pi * (vecB[0,0]- 
vecA[0,0]) /180) 
return arccos(a + b)*6371.0 








import matplotlib 
import matplotlib.pyplot as pilt 
def clusterClubs(numClust=5): 
datList = [] 
for line in open('places.txt').readlines(): 
lineArr = line.split('\t') 
datList.append( [float(lineArr[4]), float(lineArr[3])]) 
datMat = mat(datList) 
myCentroids, clustAssing = bikmeans(datMat, numClust, distMeas=distSLC) 
fig = plt.figure() 
rect=[0.1,0.1,0.8,0.8] 
scatterMarkers=['s', 'o0', '^', '8', 'p', 'd', 'v', 'h', '>' 
axprops = dict(xticks=[], yticks=[]) 
ax0=fig.add_axes(rect, label='ax0', **axprops) 
imgP = plt.imread('Portland.png') 
#@ 基于 图 像 创建 矩阵 
ax0.imshow(imgP) 
ax1=fig.add axes(rect, label='ax1', frameon=False) 
for i in range(numClust): 
ptsInCurrCluster = datMat[nonzero(clustAssing[:,0].A==i)[0],:] 
markerStyle = scatterMarkers[i % len(scatterMarkers)] 
axi.scatter(ptsInCurrCluster[:,0].flatten().A[0],ptsInCurrCluster[:,1].f1: 
ax1.scatter(myCentroids[:,0].flatten().A[90],myCentroids[:,1].flatten().A[O0], 
plt.show() 























上 述 程序 清单 包含 两 个 函数 。 第 一 个 函数 distsLc() 返 回 地 球 表 面 两 点 
之 间 的 距离 。 第 二 个 函数 clusterclubs( ) 将 文本 文件 中 的 俱乐部 进行 聚 
类 并 画 出 结果 。 


函数 distsLc( ) 返 回 地 球 表 面 两 点 间 的 距离 ， 单 位 是 英里 。 给 定 两 个 上 反 
的 经 纬度 ， 可 以 使 用 球面 余弦 定理 来 计算 两 点 的 距离 。 这 里 的 纬度 和 经 
度 用 角度 作为 单位 ， 但 是 sin() 以 及 cos() 以 弧度 为 输入 。 可 以 将 角度 除 
以 180 然 后 再 乘 以 圆周 率 pi 转 换 为 弧度 。 导 入 NumPy 的 时 候 就 会 导入 pi。 


第 二 个 函数 clusterclubs() 只 有 一 个 参数 ， 即 所 希望 得 到 的 艇 数目 。 该 
函数 将 文本 文件 的 解析 、 聚 类 以 及 画图 都 封装 在 一 起 ， 首 先 创 建 一 个 空 














列表 ， 然 后 打开 places ,txt 文件 获取 第 4 列 和 第 5 列 ， 这 两 列 分 别 对 应 续 
度 和 经 度 。 基 于 这 些 经 纬度 对 的 列表 创建 一 个 矩阵 。 接 下 来 在 这 些 数据 
点 上 运行 bikmeans() 并 使 用 distsLc() 函 数 作为 聚 类 中 使 用 的 距离 计算 方 
法 。 最 后 将 簇 以 及 艇 质心 画 在 图 上 。 


为 了 画 出 这 些 簇 ， 首 先 创建 一 幅 图 和 一 个 矩形 ， 然 后 使 用 该 沧 形 来 决定 
绘制 图 的 哪 一 部 分 。 接 下 来 构建 一 个 标记 形状 的 列表 用 于 绘制 散 点 图 。 
后 边 会 使 用 唯一 的 标记 来 标识 每 个 徐 。 下 一 步 使 用 imread() 函 数 基 于 一 
幅 图 像 来 创建 算 阵 @， 然 后 使 用 imshow( ) 绘 制 该 算 阵 。 接 下 来 ， 在 同一 
幅 图 上 绘制 一 张 新 的 图 ， 这 允许 你 使 用 两 套 坐 标 系统 并 且 不 做 任何 缩放 
或 偏 移 。 紧 接着 ， 授 历 每 一 个 簇 并 将 它们 一 一 画 出 来 。 标 记 类 型 从 前 面 
创建 的 scatterMarkers 列 表 中 得 到 。 使 用 索引 i % len(scatterMarkers) 
来 选择 标记 形状 ” ， 这 意味 着 当 有 更 多 艇 时 ， 可 以 循环 使 用 这 些 标记 。 
最 后 使 用 十 字 标 记 来 表示 艇 中心 并 在 图 中 显示 。 


下 面 看 一 下 实际 效果 ， 保存 kMeans .py 并 在 Python 提 示 符 下 输入 如 下 命 
< 











>>> reload(kMeans) 

<module 'kMeans' from 'kMeans.py'> 

>>> kMeans.clusterClubs(5) 

sseSplit, and notSplit: 3073.83037149 0.0 
the bestCentToSplit is: 0 


sseSplit, and notSplit: 307.687209245 1118.08909015 
the bestCentToSplit is: 3 
the len of bestClustAss is: 25 


执行 上 面 的 命令 后 ， 会 看 到 与 图 10-4 类 似 的 一 个 图 。 
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图 10-4 对 俄 勒 囚 州 波 特 兰 市 夜生活 娱乐 地 点 的 聚 类 结果 


可 以 答 试 输入 不 同 复数 目 得 到 程序 运行 的 效果 。 什 么 数目 比较 好 呢 ? 
读者 可 以 思考 一 下 这 个 问题 。 





10.5 ”本章 小 结 


聚 类 是 一 种 无 监督 的 学 习 方法 。 所 谓 无 监督 学 习 是 指 事先 并 不 知道 要 寻 
找 的 内 容 ， 即 没有 目标 变量 。 脓 类 将 数据 点 归 到 多 个 艇 中 ， 其 中 相似 数 
据点 处 于 同一 驴 ， 而 不 相似 数据 点 处 于 不 同 艇 中 。 聚 类 中 可 以 使 用 多 种 
不 同 的 方法 来 计算 相似 度 。 


一 种 广泛 使 用 的 聚 类 算法 是 k 均 值 算 法 ， 其 中 K 是 用 户 指 定 的 要 创建 的 复 
的 数目 。k 均 值 聚 类 算法 以 k 个 随机 质心 开始 。 算 法 会 计算 每 个 点 到 质心 
的 距离 。 每 个 点 会 被 分 配 到 距 其 最 近 的 艇 质心 ， 然 后 紧 接 着 基于 新 分 配 
到 簇 的 点 更 新 艇 质心 。 以 上 过 程 重复 数 次 ， 直 到 簇 质心 不 再 改变 。 这 个 
简单 的 算法 非 第 有 效 但 是 也 容易 受到 初始 簇 质心 的 影响 。 为 了 获得 更 好 
的 聚 类 效果 ， 可 以 使 用 另 一 种 称 为 二 分 k 均 值 的 聚 类 算法 。 二 分 k 均 值 算 
法 首先 将 所 有 点 作为 一 个 复 ， 然 后 使 用 k 均 值 算 法 CK = 2) 对 其 划分 。 
下 一 次 达 代 时 ， 选 择 有 最 大 误差 的 驴 进 行 划 分 。 该 过 程 重复 直到 k 个 艇 
创建 成 功 为 止 。 二 分 k 均 值 的 聚 类 效果 要 好 于 k 均 值 算法 。 

k 均 值 算法 以 及 变形 的 k 均 值 算法 并 非 仅 有 的 聚 类 算法 ， 为 外 称 为 层次 聚 


类 的 方法 也 被 广泛 使 用 。 下 一 章 将 介绍 在 数据 集中 查找 关联 规则 的 
Apriori 算 法 。 






































第 11 章 ”使 用 Apriori 算 法 进行 关联 分 
析 


。 Apriori 算 法 

。 频繁 项 集 生成 

。 关联 规则 生成 

。 投票 中 的 关联 规则 发 现 


在 去 杂货 店 买 东西 的 过 程 ， 实 际 包含 了 许多 机 器 学 习 的 当前 及 未 来 应 
用 ， 这 包括 物品 的 展示 方式 、 购 物 之 后 优惠 券 的 提供 以 及 用 户 忠 诚 度 计 
划 ， 等 等 。 它 们 都 离 不 开 对 大 量 数据 的 分 析 。 丙 店 希 望 从 顾客 身上 获得 
尽 可 能 多 的 利润 ， 所 以 他 们 必然 会 利用 各 种 技术 来 达到 这 一 目的 。 


忠诚 度 计划 是 指 顾客 使 用 会 员 卡 可 以 获得 一 定 的 折扣 ， 利 用 这 种 计划 ， 
商店 可 以 了 解 顾客 所 购买 的 商品 。 即 使 顾客 不 使 用 会 员 卡 ， 商 店 也 会 查 
看 顾客 购买 商品 所 使 用 的 信用 卡 记 录 。 如 果 顾 客 不 使 用 信用 卡 而 使 用 现 
金 付 蒜 ， 阐 店 则 可 以 查看 顾客 一 起 购买 的 商品 (如 果 想 知道 商店 所 使 用 
的 更 多 技术 ， 请 参考 Stephen Baker 写 的 The Numerati 一 书 ) 。 


通过 查看 哪些 商品 经 常 在 一 起 购买 ， 可 以 帮助 商店 了 解 用 户 的 购买 行 
为 。 这 种 从 数据 海 详 中 抽取 的 知识 可 以 用 于 商品 定价 、 市 场 促销 、 存 货 
管理 等 环节 。 从 大 规模 数据 集中 寻找 物品 间 的 隐 含 关系 被 称 作 关联 分 析 
Cassociation analysis) 或 者 关联 规则 学 习 (association rule learning) 。 
这 里 的 主要 问题 在 于 ， 和 寻找 物品 的 不 同 组 合 是 一 项 十 分 耗 时 的 任务 ， 所 
需 的 计算 代价 很 高 ， 蛮 力 搜索 方法 并 不 能 解决 这 个 问题 ， 所 以 需要 用 更 
智能 的 方法 在 合理 的 时 间 范 围 内 找到 频繁 项 集 。 本 章 将 介绍 如 何 使 用 
Apriori 算 法 来 解决 上 述 问题 。 


下 面 首先 详细 讨论 关联 分 析 ， 然 后 讨论 Apriori 原 理 ，Apriori 算 法 正 是 基 
于 该 原理 得 到 的 。 接 下 来 创建 函数 频繁 项 集 高 效 发 现 的 函数 ， 然 后 从 频 
繁 项 集中 抽取 出 关联 规则 。 本 章 最 后 给 出 两 个 例子 ， 一 个 是 从 国会 投票 
记录 中 抽取 出 关联 规则 ， 另 一 个 是 发 现 毒 蘑 妇 的 共同 特征 。 




















11.1 关联 分 析 
Apriori 算 法 


优点 : 易 编 码 实现 
缺点 : 在 大 数据 集 上 可 能 较 慢 
适用 数据 类 型 数值 型 或 者 标 称 型 数据 


关联 分 析 是 一 种 在 大 规模 数据 集中 寻找 有 趣 关 系 的 任务 。 这 些 关 系 可 以 
有 两 种 形式 : 频繁 项 集 或 者 关联 规则 。 频 党 项 集 (frequent item sets) 是 
经 常 出 现在 一 块 的 物品 的 集合 ， 关 联 规则 (association rules) 有 上 暗示 两 种 
物品 之 间 可 能 存在 很 强 的 关系 。 下 面 会 用 一 个 例子 来 说 明 这 两 种 概念 。 
图 11-1 给 出 了 某 个 杂货 店 的 交易 清单 。 


























交易 号 码 商品 
0 豆奶 ， 世 音 
] 蔚 音 ， 屎 布 ， 葡 药酒 ， 甜 菜 
2 豆奶 ， 尿 布 ， 葡 萄 酒 ， 检 汁 
3 英 苔 ， 豆 妨 ，、 尿 布 ， 葡 萄 酒 
4 黄 萌 ， 豆 奶 ， 尿 布 ， 橙 计 


图 11-1 一 个 来 自 Hole Foods 天 然 食 品 店 的 简单 交易 清单 


频 党 项 集 是 指 那些 经 常 出 现在 一 起 的 物品 集合 ， 图 11-1 中 的 集合 { 葡 冤 
酒 ， 原 布 , 豆奶 } 束 是 频繁 项 集 的 一 个 例子 (回想 一 下 ， 集 合 是 由 一 对 大 
括 写 “{ }” 来 表示 的 ) 。 从 下 面 的 数据 集中 也 可 以 找到 诸如 原 布 一 葡 苟 
酒 的 关联 规则 。 这 意味 着 如 果 有 人 严 了 尿布 ， 那 么 他 很 可 能 也 会 买 簿 欧 
酒 。 使 用 频繁 项 集 和 关联 规则 ， 商 家 可 以 更 好 地 理解 他 们 的 顾客 。 尽 管 
大 部 分 关联 规则 分 析 的 实例 来 自 零 售 业 ， 但 该 技术 同样 可 以 用 于 其 他 行 
业 ， 比 如 网 站 流量 分 析 以 及 医药 行业 。 


尿布 与 啤酒 ? 
关联 分 析 中 最 有 名 的 例子 是 “尿布 与 啤酒 ?>。 据 报道 ， 美 国 中 西部 的 


一 家 连锁 店 发 现 ， 男 人 们 会 在 周 四 购买 尿布 和 啤酒 。 这 样 商店 实际 
上 可 以 将 永 布 与 啤酒 放 在 一 块 ， 并 确保 在 周 四 全 价 销 售 从 而 获 利 。 














当然 ， 这 家 商店 并 没有 这 人 么 做 `。 


* DSS News, “Ask Dan! What is the true story about data mining, beer and diapers?” http://www.dssresources.com/newsletters/66.php, retrieved March 28, 2011. 


应 该 如 何 定 义 这 些 有 趣 的 关系 ? 谁 来 定义 什么 是 有 趣 ? 当 寻 找 频 桶 项 集 
时 ， 频 繁 〈frequent〉 的 定义 是 什么 ? I 问题 ， 
不 过 其 中 最 重要 的 是 支持 度 和 可 信和 度 


一 个 项 集 的 支持 度 (support) 被 定义 为 数据 集 包 含 该 项 集 的 记录 比例 。 
从 图 11-1 中 可 以 得 到 ，{ 豆 奶 } 的 支持 度 为 45。 而 在 5 条 交易 记录 中 有 3 条 
包含 {豆奶 ， 尿 布 }， 因 此 {豆奶 ， 尿 布 } 的 支持 度 为 3/5。 支持 度 是 针对 项 
因此 可 以 定义 一 个 最 小 支持 度 ， 而 只 保留 满足 最 小 支持 度 的 
功 


可 信和 度 或 置信 和 度 (confidence) 是 针对 一 条 诸如 {尿布 } 一 { 简 萄 酒 } 的 天 
联 规 则 来 定义 的 。 这 条 规则 的 可 信 度 被 定义 为 " 文 持 度 ({ 尿 布 ， 和 葡萄 酒 })/ 
支持 度 ({ 尿 布 j))”。 从 图 11-1 中 可 以 看 到 ， 由 于 { 尿 布 ， 葡萄 酒 } 的 支持 度 
为 3/5， 尿 布 的 支持 上 度 为 45， 所 以 “尿布 下 葡萄 酒 ? 的 可 信 度 为 
3/4=0.75。 这 意味 着 对 于 包含 “尿布 ”的 所 有 记录 ， 我 们 的 规则 对 其 中 
75% 的 记录 都 适用 。 


支持 度 和 可 信和 度 是 用 来 量化 关联 分 析 是 否 成 功 的 方法 。 假 设想 找到 支持 
度 大 于 0.8 的 所 有 项 集 ， 应 该 如 何 去 做 ? 一 个 办 法 是 生成 一 个 物品 所 有 

可 能 组 合 的 清单 ， 然 后 对 每 一 种 组 合 统计 它 出 现 的 频 蚂 程度， 但 当 物 品 
成 干 上 万 时 ， 上 述 做 法 非常 非常 慢 。 下 一 节 会 详细 分 析 这 种 情况 并 讨论 
Apriori 原 理 ， 该 原理 会 减少 关联 规则 学 习 时 所 需 的 计算 量 。 


















































11.2 Apriori 原 理 


假设 我 们 在 经 营 一 家 商品 种 类 并 不 多 的 杂货 店 ， 我 们 对 那些 经 疝 在 一 起 
被 购买 的 商品 非常 感 兴趣 。 我 们 只 有 4 种 商品 : 商品 0， 丙 品 1， 商 品 2 和 
商品 3。 那 么 所 有 可 能 被 一 起 购买 的 商品 组 合 都 有 哪些 ? 这 些 商品 组 合 
可 能 只 有 一 种 商品 ， 比 如 商品 0， 也 可 能 包括 两 种 、 三 种 或 者 所 有 四 种 
商品 。 我 们 并 不 关心 某 人 买 了 两 件 商 品 0 以 及 四 件 商品 2 的 情况 ， 我 们 只 
关心 他 购买 了 一 种 或 多 种 商品 。 


Apriori 算 法 的 一 般 过 程 








. 收集 数据 : 使 用 任意 方法 。 

. 准备 数据 : 任何 数据 类 型 都 可 以 ， 因 为 我 们 只 保存 集合 。 
. 分 析 数 据 : 使 用 任意 方法 。 

. 训练 算法 : 使 用 Apriori 算 法 来 找到 频繁 项 集 。 

. 测试 算法 : 不 需要 测试 过 程 。 

. 使 用 算法 : 用 于 发 现 频 繁 项 集 以 及 物品 之 间 的 关联 规则 。 


图 11-2 显 示 了 物品 之 间 所 有 可 能 的 组 合 。 为 了 让 该 图 更 容易 懂 ， 图 中 使 
用 物品 的 编写 0 来 取代 物品 0 本 里。 男 外 ， 图 中 从 上 往 下 的 第 一 个 集合 是 
@， 表 示 空 集 或 不 包含 任何 物品 的 集合 。 物 品 集合 之 间 的 连 线 表 明 两 个 
或 者 更 多 集合 可 以 组 合 形成 一 个 更 大 的 集合 。 


OUURROOD~ 




















图 11-2 集合 {0,1,2,3} 中 所 有 可 能 的 项 集 组 合 
前 面 说 过 ， 我 们 的 目标 是 找到 经 种 在 一 起 购买 的 物品 集合 。 而 在 11.1 节 





中 ， 我 们 使 用 集合 的 支持 度 来 度量 其 出 现 的 频率 。 一 个 集合 的 支持 度 是 
站 有 多 少 比 例 的 交易 记录 包含 该 集合 。 如 何 对 一 个 给 定 的 集合 ， 比 如 
{0,3}， 来 计算 其 支持 度 ? 我 们 遍历 每 条 记录 并 检查 该 记录 包含 0 和 3， 

如 果 记 录 确 实 同时 包含 这 两 项 ， 那 么 就 增加 总 计数 值 。 在 扫描 完 所 有 数 








据 之 后 ， 使 用 统计 得 到 的 总 数 除 以 总 的 交易 记录 数 ， 就 可 以 得 到 支持 

度 。 上 述 过 程 和 结果 只 是 针对 单个 集合 {0,3}。 要 获得 每 种 可 能 集合 的 

支持 度 就 需要 多 次 重复 上 述 过 程 。 我 们 可 以 数 一 下 图 11-2 中 的 集合 数 

目 ， 会 发 现 即 使 对 于 仅 有 4 种 物品 的 集合 ， 也 需要 遍历 数据 15 次 。 而 随 
着 物品 数目 的 增加 遍历 次 数 会 急剧 增长 。 对 于 包含 N 种 物品 的 数据 集 共 
有 2*-1 种 项 集 组 合 。 事 实 上 ， 出 售 10 ”000 或 更 多 种 物品 的 商店 并 不 少 
见 。 即 使 只 出 售 100 种 商品 的 商店 也 会 有 1.26 * 10* 种 可 能 的 项 集 组 合 。 
对 于 现代 的 计算 机 而 言 ， 需 要 很 长 的 时 间 才 能 完成 运算 。 


为 了 降低 所 需 的 计算 时 间 ， 研 究 人 员 发 现 一 种 所 谓 的 Apriori 原 理 。 
Apriori 原 理 可 以 帮 我 们 减少 可 能 感 兴 趣 的 项 集 。Apriori 原 理 是 说 如 果 某 
个 项 集 是 频繁 的 ， 那 么 它 的 所 有 子 集 也 是 频繁 的 。 对 于 图 11-2 给 出 的 例 
子 ， 这 意味 着 如 果 {0,1} 是 频繁 的 ， 那 么 {0}、{1} 也 一 定 是 频繁 的 。 这 个 
原理 直观 上 并 没有 什么 帮助 ， 但 是 如 果 反 过 来 看 束 有 用 了 ， 也 就 是 说 如 
果 一 个 项 集 是 非 频繁 集 ， 那 么 它 的 所 有 超 集 也 是 非 频繁 的 (如 图 11-3 所 
示 ) 























A priori 


A priori 在 拉丁 语 中 指 “ 来 自 以 前 ”。 当 定义 问题 时 ， 通 常会 使 用 先 验 
知识 或 者 假设 ， 这 被 称 作 “一 个 先 验 ”(a priori)。 在 贝 叶 斯 统计 中 ， 
使 用 先 验 知识 作为 条 件 进 行 推 朵 也 很 常见 。 先 验 知 识 可 能 来 自 领 域 


知识 、 先 前 的 一 些 测 量 结果 ， 等 等 。 
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图 11-3 ”图 中 给 出 了 所 有 可 能 的 项 集 ， 其 中 非 频繁 项 集 用 灰色 表示 。 
由 于 集合 {2,3} 是 非 频 繁 的 ， 因 此 {0,2,3}、{1,2,3} 和 {0,1,2,3} 也 是 非 频繁 
的 ， 它 们 的 支持 度 根本 不 需要 计算 


在 图 11-3 中 ， 己 知 阴影 项 集 {2,3} 是 非 频繁 的 。 利 用 这 个 知识 ， 我 们 束 知 
道 项 集 {0,2,3}，{1,2,3} 以 及 {0,1,2,3} 也 是 非 频 繁 的。 这 也 就 是 说 ， 一 旦 
计算 出 了 {2,3} 的 支持 度 ， 知 道 它 是 非 频 繁 的 之 后 ， 就 不 需要 再 计算 
{0,2,3}、{1,2,3} 和 {0,1,2,3} 的 支持 度 ， 因 为 我 们 知道 这 些 集 合 不 会 满足 
我 们 的 要 求 。 使 用 该 原理 就 可 以 避免 项 集 数 目的 指数 增长 ， 从 而 在 合理 
时 间 内 计算 出 频繁 项 集 。 


下 一 节 将 介绍 基于 Apriori 原 理 的 Apriori 算 法 ， 并 使 用 Python 来 实现 ， 然 
后 将 其 应 用 于 虚拟 商店 Hole Foods 的 数据 集 上 。 


11.3 ”使 用 Apriori 算 法 来 发 现 频繁 集 


11.1 市 所 到 ， 关 联 分 析 的 目标 包括 两 项 ， 发 现 频 索 项 集 和 发 现 关 联 规 
则 。 首 先 需 要 找到 频繁 项 集 ， 然 后 才能 获得 关联 规则 。 本 市 将 只 关注 于 
发 现 频 蚂 项 集 。 


Apriori 算 法 是 发 现 频繁 项 集 的 一 种 方法 。Apriori 算 法 的 两 个 输入 参数 分 
别 是 最 小 文 持 度 和 数据 集 。 该 算法 首先 会 生成 所 有 单个 物品 的 项 集 列 

表 。 接 着 扫描 交易 记录 来 查看 哪些 项 集 满 足 最 小 文 持 度 要 求 ， 那 些 不 满 
足 最 小 文 持 度 的 集合 会 被 去 掉 。 然 后 ， 对 剩 下 来 的 集合 进行 组 合 以 生成 
包含 两 个 元 素 的 项 集 。 接 下 来 ， 再 重新 扫描 交易 记录 ， 去 挥 不 满足 最 小 
支持 度 的 项 集 。 该 过 程 重复 进行 直到 所 有 项 集 都 被 去 掉 。 


11.3.1 生成 候选 项 集 


在 使 用 Python 来 对 整个 程序 编码 之 前 ， 需 要 创建 一 些 辅助 函数 。 下 面 会 
创建 一 个 用 于 构建 初始 集合 的 函数 ， 也 会 创建 一 个 通过 扫描 数据 集 以 寻 
找 交 易 记 录 子 集 的 函数 。 数 据 集 扫 描 的 伪 代 码 大 致 如 下 : 


对 数据 集中 的 每 条 交易 记录 tran 
对 每 个 候选 项 集 can: 

检查 一 下 can 是 否 是 tran 的 子 集 : 
如 果 是 ， 则 增加 can 的 计数 值 
对 每 个 候选 项 集 : 
如 果 其 支持 度 不 低 于 最 小 值 ， 则 保留 该 项 集 
返回 所 有 频繁 项 集 列表 








































































































下 面 看 一 下 实际 的 运行 效果 ， 建 立 一 个 apriori.py 文 件 并 加 入 下 列 代 
但 。 


程序 清单 11-1 Apriori 算 法 中 的 辅助 函数 


def loadDataSet(): 
return [[1, 3, 4], [2, 3, 5], [1, 2, 3, 5], [2, 5]] 


def createCc1(dataSet ) : 
for transaction in dataSet : 
for item in transaction: 
If not [item] in C1: 
ci.append([item]) 
C1.sort() 
#@ 对 C1 中 每 个 项 构建 一 个 不 变 集合 














return map(frozenset, C1) 


def scanD(D, Ck, minSupport): 
sscnt = {} 
for tid in D: 
for can in Ck: 
if can.issubset(tid): 
If not ssCnt.has_key(can): sscnt[can]=1 
else: sscnt[can] += 1 
numItems = float(len(D)) 
retList = [] 
SupportData = {} 
for key in ssCnt: 
# 人 @ 计算 所 有 项 集 的 支持 度 
support = sscnt[key]/numIitems 
if support >= minSupport: 
retList.insert(0, key) 





supportData[key] = support 
return retList, supportData 


上 述 程序 包含 三 个 函数 。 第 一 个 函数 l0adpataset() 创 建 了 一 个 用 于 测 
试 的 简单 数据 集 ， 另 外 两 个 函数 分 别 是 createc1() 和 scanD()。 


不 言 自 名 ， 函 数 createcl() 将 构建 集合 ct。c1 是 大 小 为 1 的 所 有 候选 项 
集 的 集合 。Apriori 算 法 首先 构建 集合 cI1， 然 后 扫描 数据 集 来 判断 这 些 只 
有 一 个 元 素 的 项 集 是 否 满 足 最 小 支持 度 的 要 求 。 那 些 满足 最 低 要 求 的 项 
集 构成 集合 L1。 而 Li 中 的 元 素 相互 组 合 构 成 c2，c2 再 进一步 过 滤 变 

为 L2。 到 这 里 ， 我 想 读 者 应 该 明白 了 该 算法 的 主要 思路 。 


因此 算法 需要 一 个 函数 createc1() 来 构建 第 一 个 候选 项 集 的 列表 c1。 由 
于 算法 一 开始 是 从 输入 数据 中 提取 候选 项 集 列 表 ， 所 以 这 里 需要 一 个 特 
殊 的 函数 来 处 理 ， 而 后 续 的 项 集 列 表 则 是 按 一 定 的 格式 存放 的 。 这 里 使 
用 的 格式 就 是 Python 中 的 frozenset 类 型 。frozenset 是 指 被 “冰冻 ”的 集合 ， 
就 是 说 它们 是 不 可 改变 的 ， 即 用 户 不 能 修改 它们 。 这 里 必须 要 使 用 
frozenset 而 不 是 set 类 型 ， 因 为 之 后 必须 要 将 这 些 集合 作为 字典 键 值 使 
用 ， 使 用 frozenset 可 以 实现 这 一 点 ， 而 set 却 做 不 到 。 


首先 创建 一 个 空 列表 c1， 它 用 来 存储 所 有 不 重复 的 项 值 。 接 下 来 授 历 数 
据 集 中 的 所 有 交易 记录 。 对 每 一 条 记录 ， 裔 历 记 录 中 的 每 一 个 项 。 如 果 
某 个 物品 项 没有 在 ci 中 出 现 ， 则 将 其 添加 到 ci 中 。 这 里 并 不 是 简单 地 添 
加 每 个 物品 项 ， 而 是 添加 只 包含 该 物品 项 的 一 个 列表 :。 这 样 做 的 目的 是 
为 每 个 物品 项 构建 一 个 集合 。 因 为 在 Apriori 算 法 的 后 续 处 理 中 ， 需 要 做 
集合 操作 。Python 不 能 创建 只 有 一 个 整数 的 集合 ， 因 此 这 里 实现 时 必须 
是 一 个 列表 (有 兴趣 的 读者 可 以 试 一 下 ) 。 这 了 驶 是 我 们 使 用 一 个 由 单 物 























品 列 表 组 成 的 大 列表 的 原因 。 最 后 ， 对 大 列表 进行 排序 并 将 其 中 的 每 个 
单元 素 列表 映射 到 frozenset()， 最 后 返回 frozenset 的 列表 @。 


1. 也 就 是 说 ，C1 是 一 个 集合 的 集合 ， 如 {{0},{1},{2},…}， 每 次 添加 的 都 是 单个 项 构成 的 集合 {0}、{1}、{2}.…。 一 一 译 者 注 


程序 清单 11-1 中 的 第 二 个 函数 是 scanD()， 它 有 三 个 参数 ， 分 别 是 数据 

集 、 候 选项 集 列 表 Ck 以 及 感 兴 趣 项 集 的 最 小 支持 度 minsupport。 该 函数 
用 于 从 ci 生成 L1。 另 外 ， 该 函数 会 返回 一 个 包含 支持 度 值 的 字典 以 备 后 
用 。scanD() 函 数 首先 创建 一 个 空 字典 sscnt， 然 后 届 历 数据 集中 的 所 有 
交易 记录 以 及 ci 中 的 所 有 候选 集 。 如 果 ci 中 的 集合 是 记录 的 一 部 分 ， 那 
么 增加 字典 中 对 应 的 计数 值 。 这 里 字典 的 键 就 是 集合 。 当 扫描 完 数据 集 
中 的 所 有 项 以 及 所 有 候选 集 时 ， 束 需要 计算 支持 度 。 不 满足 最 小 支持 度 
要 求 的 集合 不 会 输出 。 函 数 也 会 先 构建 一 个 空 列表 ， 该 列表 包含 满足 最 
小 支持 度 要 求 的 集合 。 下 一 个 循环 人 裔 历 字 典 中 的 每 个 元 素 并 且 计 算 支持 
度 @。 如 果 支 持 度 满足 最 小 支持 度 要 求 ， 则 将 字典 元 紊 添加 到 retList 

中 。 可 以 使 用 语句 retList.insert(9, key) 在 列表 的 首部 插入 任意 新 的 集 
合 。 当 然 也 不 一 定 非 要 在 首部 插入 ， 这 只 是 为 了 让 列表 看 起 来 有 组 织 。 

函数 最 后 返回 最 频繁 项 集 的 文 持 度 supportData， 该 值 会 在 下 一 节 中 使 

用 。 


下 面 看 看 实际 的 运行 效果 。 保 存 apriori.py 之 后 ， 在 Python 提示 符 下 输 
入 : 



































>>> import apriori 


然后 导入 数据 集 : 


>>> dataSet=apriori.loadDataSet() 
>>> dataSet 
[[1, 3, 4], [2, 3, 5S], [1, 2, 3, 5], [2, 5]] 


之 后 构建 第 一 个 候选 项 集 集合 c1: 


>>> C1=apriori.createCc1(dataSet ) 
>>> C1 
[frozenset([1]), frozenset([2]), frozenset([3]), frozenset([4]), frozenset([5])] 


可 以 看 到 ，ci 包 含 了 每 个 frozenset 中 的 单个 物品 项 。 下 面 构建 集合 表示 
的 数据 集 D。 


>>> D=map(set, dataSet ) 
>>> D 
[set([1, 3, 4]), set([2, 3, 5]), set([i1, 2, 3, 5]), set([2, 5])] 


有 了 集合 形式 的 数据 ， 就 可 以 去 挥 那 些 不 满足 最 小 文 持 度 的 项 集 。 对 上 
面 这 个 例子 ， 我 们 使 用 0.5 作 为 最 小 文 持 度 水 平 : 


>>> L1,SuppData0=apriori.scanD(D，C1，0.5) 
>>> L1 
[frozenset([1]), frozenset([3]), frozenset([2]), frozenset([5])] 


上 述 4 个 项 集 构成 了 Li 列表， 该 列表 中 的 每 个 早 物 品 项 集 至 少 出 现在 
50% 以 上 的 记录 中 。 由 于 物品 4 并 没有 达到 最 小 支持 度 ， 所 以 没有 包含 
在 LI 中。 通过 去 把 这 件 物品 ， 减 少 了 碍 找 两 物品 项 集 的 工作 量 。 


11.3.2 组织 完整 的 Apriori 算 法 
整个 Apriori 算 法 的 伪 代 码 如 下 : 


当 集 合 中 项 的 个 数 大 于 0 时 
构建 一 个 k 个 项 组 成 的 候选 项 集 的 列表 
检查 数据 以 确认 每 个 项 集 都 是 频繁 的 
保留 频繁 项 集 并 构建 k+1 项 组 成 的 候选 项 集 的 列表 












































既然 可 以 过 小 集合 ， 那 么 就 能 够 构建 完整 的 Apriori 算 法 了 。 打 
开 apriori. py 文件 加 入 如 下 程序 清单 中 的 代码 。 


程序 清单 11-2 ”Apriori 算 法 


def aprioriGen(LK，k): #creates Ck 
retList = [] 
lenLk = len(Lk) 
for i in range(lenLk): 
for j jin range(i+1, lenLk): 
#@ (以 三 行 ) 前 k-2 个 项 相同 时 ， 将 两 个 集合 合并 
L1 = list(Lk[i])[:k-2]; L2 = list(Lk[j])[:k-2] 
L1i.sort(); L2.sort() 
If L1i==L2: 
retList.append(Lk[i] | Lk[j]) 
return retList 








def apriori(dataSet, minSupport = 0.5): 
C1 = createci(dataset) 
D = map(set, dataSet) 
L1i, supportData = scanD(D, C1, minSupport) 


L = [Li1] 
k 


= 2 
while (len(L[k-2]) > 0): 
Ck = aprioriGen(L[k-2], Kk) 
#@ ”扫描 数据 集 ， 从 Ck 得 到 Lk 
Lk, supKk = scanD(D, Ck, minSupport) 
supportData.update( supkK) 
L.append(Lk) 
k += 1 





























return L, supportData 


程序 清单 11-2 包 含 两 个 函数 aprioriGen() 与 apriori()。 其 中 主 函 数 
是 apriori()， 它 会 调用 aprioriGen( ) 来 创建 候选 项 集 ck。 


函数 aprioriGen() 的 输入 参数 为 频繁 项 集 列 表 Lk 与 项 集 元 素 个 数 k， 输 出 
为 ck。 举 例 来 说 ， 该 函数 以 {0}、{1}、{2} 作 为 输入 ， 会 生成 {0,1}、 
{0,2} 以 及 {12}。 要 完成 这 一 点 ， 首 先 创 建 一 个 空 列表 ， 然 后 计算 Lk 中 
的 元 素数 目 。 接 下 来 ， 比 较 Lk 中 的 每 一 个 元 素 与 其 他 元 素 ， 这 可 以 通过 
两 个 for 循 环 来 实现 。 紧 接着 ， 取 列表 中 的 两 个 集合 进行 比较 。 如 果 这 
两 个 集合 的 前 面 k-2 个 元 素 都 相等 ， 那 么 就 将 这 两 个 集合 合成 一 个 大 小 
为 k 的 集合 @。 这 里 使 用 集合 的 并 操作 来 完成 ， 在 Python 中 对 应 操作 








上 面 的 k-2 有 点 让 人 疑惑 。 接 下 来 再 进一步 讨论 细节 。 当 利用 {0}、 
{1}、”{2} 构 建 {0,1}、{0,2}、” {L2} 时 ， 这 实际 上 是 将 单个 项 组 合 到 一 
块 。 现 在 如 果 想 利用 {0,1}、 {0,2}、 {1,2} 来 创建 三 元 素 项 集 ， 应 该 怎么 
做 ?如果 将 每 两 个 集合 合并 ， 就 会 得 到 {0, 1, 2}、 {0, 1, 2}、 {0, 1, 2}。 
也 就 是 说 ， 同 样 的 结果 集合 会 重复 3 次 。 接 下 来 需要 扫描 三 元 素 项 集 列 
表 来 得 到 非 重复 结果 ， 我 们 要 做 的 是 确保 遍历 列表 的 次 数 最 少 。 现 在 ， 
如 果 比 较 集合 {0,1}、 {0,2}、 {1,2} 的 第 1 个 元 素 并 只 对 第 1 个 元 素 相同 的 
集合 求 并 操作 ， 又 会 得 到 什么 结果 ? {0，1，2}， 而 且 只 有 一 次 操作 ! 这 
样 就 不 需要 遍历 列表 来 寻找 非 重复 值 。 


上 面 所 有 的 操作 都 被 封装 在 apriori() 函 数 中 。 给 该 函数 传递 一 个 数据 
集 以 及 一 个 文 持 度 ， 函 数 会 生成 候选 项 集 的 列表 ， 这 通过 首先 创建 c1 然 
后 读 入 数据 集 将 其 转化 为 D〈 集 合 列 表 ) 来 完成 。 程 序 中 使 用 map 函 数 
将 set() 映 射 到 dataset 列 表 中 的 每 一 项 。 接 下 来 ， 使 用 程序 清单 11-1 中 
的 scanD() 函 数 来 创建 L1， 并 将 Li1 放 入 列表 L 中 。L 会 包含 L1、L2、L3...。 
现在 有 了 L1， 后 面 会 继续 找 L2，L3...， 这 可 以 通过 while 循 环 来 完成 ， 
它 创 建 包 含 更 大 项 集 的 更 大 列表 ， 直 到 下 一 个 大 的 项 集 为 室 。 如 果 这 听 
起 来 让 人 有 点 困惑 的 话 ， 那 么 等 一 下 你 会 看 到 它 的 工作 流程 。 首 先 使 


























用 aprioricen() 来 创建 ck， 然 后 使 用 scanD() 基 于 ck 来 创建 Lk。ck 是 一 个 
候选 项 集 列 表 ， 然 后 scanp() 会 志 历 ck， 丢 掉 不 满足 最 小 支持 度 要 求 的 
项 集 @。 0 同时 增加 k 的 值 ， 重 复 上 述 过 程 。 最 后 ， 

当 Lk 为 空 时 ， 程 序 返 回 L 并 退出 。 


下 面 看 看 上 述 术 程 序 的 执行 效 朱 。 保 存 apriori.py 文 件 后 ， 输 入 如 下 命 


今 : 








>>> reload(apriori) 
<module 'apriori' from 'apriori.pyc'> 





上 面 的 命令 创建 了 6 个 不 重复 的 两 元 系 集合 ， 下 耐看 一 下 Apriori 算 法 : 


>>> L, suppData=apriori.apriori(dataset) 

>>> 上 

[[frozenset([1]), frozenset([3]), frozenset([2]), frozenset([5])], 
[frozenset([1, 3]), frozenset([2, 5]), frozenset([2, 3]), frozenset([3, 5])], 
[frozenset([2, 3, 5])], []] 





lL 包含 满足 最 小 文 持 度 为 0.5 的 频繁 项 集 列表 ， 下 面 看 一 下 其 体 值 : 


>>> L[0 

[frozenset([1]), frozenset([3]), frozenset([2]), frozenset([5])] 
>>> L[1] 

[frozenset([1, 3]), frozenset([2, 5]), frozenset([2, 3]), 
frozenset([3, 5])] 

>>> L[2] 

[frozenset([2, 3, 5])] 

>>> L[3] 

[] 


每 个 项 集 都 是 在 函数 apriori() 中 调用 函数 aprioricGen() 来 生成 的 。 下 面 
看 一 下 aprioriGen() 函 数 的 工作 流程 : 


>>> apriori.aprioriGen(L[0], 2) 
[frozenset([1, 3]), frozenset([1, 2]), frozenset([1, 5]), 
frozenset([2, 3]), frozenset([3, 5]), frozenset([2, 5])] 


这 里 的 6 个 集合 是 候选 项 集 ck 中 的 元 率 。 其 中 4 个 集合 在 L[1] 中 ， 剩 下 
个 集合 被 函数 scanp() 过 滤 掉 。 


下 面 再 答 试 一 下 70% 的 文 持 度 : 


>>> L, suppData=apriori.apriori(dataSet,minSupport=0.7) 
>>> 上 
[[frozenset([3]), frozenset([2]), frozenset([5])], [frozenset([2, 5])], []] 


变量 supppata 是 一 个 字典 ， 它 包含 我 们 项 集 的 支持 度 值 。 现 在 暂时 不 考 
虑 这 些 值 ， 不 过 下 一 节 会 用 到 这 些 值 。 


现在 可 以 知道 哪些 项 出 现在 70% 以 上 的 记录 中 ， 还 可 以 基于 这 些 信 息 得 
到 一 些 结论 。 我 们 可 以 像 许 多 程序 一 样 利用 数据 得 到 一 些 结论 ， 或 者 可 
以 生成 if-then 形 式 的 关联 规则 来 理解 数据 。 下 一 节 会 就 此 展开 讨论 。 


11.4 从 频 索 项 集中 挖掘 关联 规则 


11.2 市 曾经 提 人 到， 可 以 利用 关联 分 析 友 现 许多 有 趣 的 内 容 。 人 们 最 党 寻 
找 的 两 个 目标 是 频繁 项 集 与 关联 规则 。 上 一 节 介 绍 如 何 使 用 Apriori 算 法 
来 友 现 频 每 项 集 ， 现 在 需要 解决 的 问题 是 如 何 找 出 关联 规则 。 


要 找到 关联 规则 ， 我 们 首先 从 一 个 频繁 项 集 开 始 。 我 们 知道 集合 中 的 元 
素 是 不 重复 的 ， 但 我 们 想 知道 基于 这 些 元 系 能 人 否 获 得 其 他 内 容 。 某 个 元 
素 或 者 某 个 元 素 集合 可 能 会 推导 出 另 一 个 元 素 。 从 杂货 店 的 例子 可 以 得 
到 ， 如 果 有 一 个 频繁 项 集 { 豆 奶 ， 郧 下 }， 那 么 就 可 能 有 一 条 关联 规则 “ 豆 
奶 一 钢 直 ”。 这 意味 着 如 打 有 人 购买 了 豆奶 ， 那 么 在 统计 上 他 会 购买 唤 
下 的 概率 较 大 。 但 是 ,这 一 条 反 过 来 并 不 总 是 成 立 。 也 就 是 说 ， 即 使 < 豆 
奶 一 芮 音 ” 统 计 上 显著 ， 那 么 “ 芮 昔 一 豆奶 ”也 不 一 定 成 立 。〈( 从 逻辑 
研究 上 来 讲 ， 箭 头 左 边 的 集合 称 作 前 件 ， 箭 头 右边 的 集合 称 为 后 件 。) 


11.3 节 给 出 了 频繁 项 集 的 量化 定义 ， 即 它 满足 最 小 文 持 度 要求 。 对 于 关 
联 规 则 ， 我 们 也 有 类 似 的 量化 方法 ， 这 种 量化 指标 称 为 可 信和 度 。 一 条 规 
则 了 P 一 再 的 可 信 度 定义 为 support(P | H)/support(P)。 记 住 ， 在 Python 
中 ， 操 作 符 | 表 示 集 合 的 并 操作 ， 而 数学 上 集合 并 的 符号 是 u。P | H 是 
指 所 有 出 现在 集合 Pp 或 者 集合 t 中 的 元 素 。 前 面 一 节 已 经 计算 了 所 有 频繁 
项 集 文 持 度 。 现 在 想 获 得 可 信 度 ， 所 需要 做 的 只 是 取出 那些 文 持 度 值 做 
一 次 除法 运算 。 


从 一 个 频 楷 项 集中 可 以 产生 多 少 条 关联 规则 ? 图 11-4 的 网 格 岁 给 出 的 是 
从 项 集 {0,12,3} 产 生 的 所 有 关联 规则 。 为 找到 感 兴 趣 的 规则 ， 我 们 先生 
成 一 个 可 能 的 规则 列表 ， 人 然后 测试 每 条 规则 的 可 信和 度 。 如 宁可 信和 度 不 满 
足 最 小 要 求 ， 则 去 邱 该 规则 。 












































图 11-4 ”对 于 频繁 项 集 {0,1,2,3} 的 关联 规则 网 格 示意 图 。 阴 影 区 域 给 出 








的 是 低 可 信 度 的 规则 。 如 果 发 现 0,12-3 是 一 条 低 可 信和 度 规则 ， 那 么 所 
有 其 他 以 3 作为 后 件 的 规则 可 信和 度 也 会 较 低 


类 似 于 上 一 节 的 频 索 项 集 生成 ， 我 们 可 以 为 每 个 频繁 项 集 产生 许多 关联 
规则 。 如 果 能 够 减少 规则 数目 来 确保 问题 的 可 解 性 ， 那 么 计算 起 来 就 会 
好 很 多 。 可 以 观察 到 ， 如 宋 茶 条 规则 并 不 满足 最 小 可 信 度 和 要求， 那么 该 
规则 的 所 有 子 集 也 不 会 满足 最 小 可 信和 上 度 要 求 。 以 图 11-4 为 例 ， 假 设 规则 
0,12 一 3 并 不 满足 最 小 可 信和 上 要 求 ， 那 么 残 知道 任何 左 部 为 {0,1,2} 子 集 
ed 0 0 
求 雪 示 


可 以 利用 关联 规则 的 上 述 性 质 属性 来 减少 需要 测试 的 规则 数目 。 类 似 于 
程序 清单 11-2 中 的 Apriori 算 法 ， 可 以 首先 从 一 个 频繁 项 集 开始 ， 接 着 创 
建 一 个 规则 列表 ， 其 中 规则 右 部 只 包含 一 个 元 素 ， 然 后 对 这 些 规则 进行 
测试 。 接 下 来 合并 所 有 剩余 规则 来 创建 一 个 新 的 规则 列表 ， 其 中 规则 石 
部 包含 两 个 元 素 。 这 种 方法 也 被 称 作 分 级 法 。 下 面 看 一 下 这 种 方法 的 实 
际 效果 ， 打 开 apriori.py 文 件 ， 加 入 下 面 的 代码 。 














程序 清单 11-3 ”关联 规则 生成 函数 


def generateRules(L, supportData, minConf=0.7): 
bigRuleList = [] 
#@ 只 获取 有 两 个 或 更 多 元 素 的 集合 
for i in range(1, len(L)): 
for freqSet in L[i]: 
H1 = [frozenset([item]) for item in fredqSet] 
if (i > 1): 
rulesFromConseq(freqSet, H1, supportData, bigRuleList,minConf) 
else: 
calcCconf(freqSet, H1, supportData, bigRuleList, minConf) 
return bigRuleList 
































def calccCconf(freqSet, H, supportData, brl, minConf=0.7): 
prunedH = [] 
for conseq in H: 
conf = supportData[freqSet]/supportData[freqSet-conseq] 
if conf >= minConf: 
print freqSet-conseq,'-->',conseq, 'conf:',conf 
brl.append( (freqSet-conseq, conseq, conf)) 
prunedH.append(conseq) 
return prunedH 


def rulesFromConseq(freqSet, H, supportData, brl, minConf=0.7): 
m = len(H[0]) 
# 人 @ 尝试 进一步 合并 
If (len(freqsSet) > (m + 1)): 
#@@ 创建 Hm+1 条 新 候选 规则 
Hmp1 = aprioriGen(H, m + 1) 
Hmp1 = calcCconf(freqSet, Hmp1i, supportData, brl, minConf) 
If (Jen(Hmp1) > 1): 
rulesFromConseq(freqSet, Hmp1, supportData, brl, minConf) 




















上 述 程序 中 包含 三 个 函数 。 第 一 个 函数 generateRules() 是 主 函 数 ， 它 调 
用 其 他 两 个 函数 。 其 他 两 个 函数 是 rulesFromconseq() 和 calcconf()， 分 
别 用 于 生成 候选 规则 集合 以 及 对 规则 进行 评估 。 


函数 generateRules() 有 3 个 参数 : 频繁 项 集 列 表 、 包 含 那 些 频繁 项 集 文 
持 数 据 的 字典 、 最 小 可 信和 度 阔 值 。 函 数 最 后 要 生成 一 个 包含 可 信和 度 的 规 
则 列表 ， 后 面 可 以 基于 可 信和 度 对 它们 进行 排序 。 这 些 规则 存放 

在 bigRuleList 中 。 如 果 事 先 没 有 给 定 最 小 可 信 度 的 阔 值 ， 那 么 默认 值 
设 为 0.7。generateRules() 的 另 两 个 输入 参数 正好 是 程序 清单 11-2 中 函 
数 apriori() 的 输出 结果 。 该 函数 遍历 [中 的 每 一 个 频繁 项 集 并 对 每 个 频 
繁 项 集 创建 只 包含 单个 元 素 集合 的 列表 H1。 因 为 无 法 从 单元 素 项 集中 构 
建 关联 规则 ， 所 以 要 从 包含 两 个 或 者 更 多 元 素 的 项 集 开 始 规 则 构建 过 程 
@。 如 果 从 集合 {0,1,2} 开 始 ， 那 么 Hi 应 该 是 [{0},{1},{2 站 。 如 果 频 繁 项 
集 的 元 素数 目 超过 2， 那 么 会 考虑 对 它 做 进一步 的 合并 。 具 体 合 并 可 以 
通过 函数 rulesFromconseq() 来 完成 ， 后 面 会 详细 讨论 合并 过 程 。 如 果 项 























集中 只 有 两 个 元 素 ， 那 么 使 用 函数 calcconf() 来 计算 可 信 度 值 。 


我 们 的 目标 是 计算 规则 的 可 信和 度 以 及 找到 满足 最 小 可 信和 度 要 求 的 规则 。 

所 有 这 些 可 以 使 用 函数 calcconf() 来 完成 ， 而 程序 清单 11-3 中 的 其 余 代 
码 都 用 来 准备 规则 。 函 数 会 返回 一 个 满足 最 小 可 信和 度 要 求 的 规则 列表 ， 

为 了 保存 这 些 规则 ， 和 需要 创建 一 个 空 列 表 prunedH。 接 下 来 ， 壳 历 H 中 的 
所 有 项 集 并 计算 它们 的 可 信和 度 值 。 可 信和 度 计 算 时 使 用 supportData 中 的 

文 持 度 数据 。 通 过 导入 这 些 文 持 度数 据 ， 可 以 节省 大 量 计算 时 间 。 如 果 
某 条 规则 满足 最 小 可 信和 度 值 ， 那 么 将 这 些 规 则 输出 到 屏 磋 显示 。 通 过 检 
查 的 规则 也 会 被 返回 ， 并 被 用 在 下 一 个 函数 rulesFromconseq() 中 。 同 时 
也 需要 对 列表 br1 进 行 填充 ， 而 br1 是 前 面 通 过 检查 的 bigRuleList。 


为 从 最 切 的 项 集中 生成 更 多 的 关联 规则 ， 可 以 使 用 rulesFromconseq() 冰 
数 。 该 函数 有 2 个 参数 :一 个 是 频繁 项 集 ， 男 一 个 是 可 以 出 现在 规则 右 

部 的 元 素 列表 H。 函 数 先 计算 中 的 频繁 集 大 小 m@@。 接 下 来 查看 该 频繁 

项 集 是否 大 到 可 以 移 除 大 小 为 m 的 子 集 。 如 果 可 以 的 话 ， 则 将 其 移 除 。 

可 以 使 用 程序 清单 11-2 中 的 函数 aprioricen() 来 生成 H 中 元 素 的 无 重复 组 
合 全 @。 该 结果 会 存储 在 Hmp1l 中 ， 这 也 是 下 一 次 迭代 的 H 列 表 。Hmpi 包 含 

所 有 可 能 的 规则 。 可 以 利用 calcconf() 来 测试 它们 的 可 信 度 以 确定 规则 
是 否 满足 要 求 。 如 果 不 止 一 条 规则 满足 要 求 ， 那 么 使 用 Hmp1 迭 代 调 用 函 
数 rulesFromconseq( ) 来 判断 是 否 可 以 进一步 组 合 这 些 规则 。 


机 下 实际 的 运行 效果 ， 保 存 apriori.py 文 件 ， 在 Python 提示 符 下 
险 入 : 


>>> reload(apriori) 
<module "apriori' from 'apriori.py'> 
现在 ， 让 我 们 生成 一 个 最 小 支持 度 是 9 .5 的 频繁 项 集 的 集合 : 
>>> L, suppData=apriori.apriori(dataSet,minSupport=0.5) 
>>> rules=apriori,.generateRules(L, suppData, minConf=0.7) 
>>> rules 
[(frozenset([1]), frozenset([3]), 1.0), (frozenset([5]), frozenset([2]),1.0), 
frozenset([1]) --> frozenset([3]) conf: 1.0 
frozenset([5]) --> frozenset([2]) conf: 1.0 
frozenset([2]) --> frozenset([5]) conf: 1.0 
























































结 来 中 给 出 三 条 规则 : {1} 一 {3}、{5} 一 {人 2} 及 {2} 一 {5}。 可 以 看 
到 ， 后 两 条 包含 2 和 5 的 规则 可 以 互 换 前 件 和 后 件 ， 但 是 前 一 条 包含 1 和 3 
的 规则 不 行 。 下 面 降低 可 信和 上 度 装 值 之 后 看 一 下 结果 : 





>>> rules=apriori,generateRules(L,SuppData，minconf=0.5) 
>>> rules 


[(frozenset([3])，frozenset([1])，0.6666666666666666)， (frozenset([1]),frozenset( 
(frozenset([2]), frozenset([5]), 1.0), (frozenset([3]), frozenset([2]),0.66666666! 
(frozenset([5]), frozenset([3]), 0.6666666666666666), (frozenset([3]),frozenset([ 
0.6666666666666666)， (frozenset([3]), frozenset([2, 5]),0.6666666666666666), (fro: 


conf: 0.666666666667 


frozenset([3]) --> 


frozenset([1]) 


frozenset([1]) --> frozenset([3]) conf: 1.0 
frozenset([5]) --> frozenset([2]) conf: 1.0 
frozenset([2]) --> frozenset([5]) conf: 1.0 
frozenset([3]) --> frozenset([2]) conf: 0.666666666667 
frozenset([2]) --> frozenset([3]) conf: 0.666666666667 
frozenset([5]) --> frozenset([3]) conf: 0.666666666667 
frozenset([3]) --> frozenset([5]) conf: 0.666666666667 
frozenset([5]) --> frozenset([2, 3]) conf: 0.666666666667 
frozenset([3]) --> frozenset([2, 5]) conf: 0.666666666667 
frozenset([2]) --> frozenset([3, 5]) conf: 0.666666666667 


一 旦 降低 可 信和 度 阐 值 ， 就 可 以 获得 更 多 的 规则 。 到 现在 为 止 ， 我 们 看 到 
上 述 程 序 能 够 在 一 个 小 数据 集 上 正常 运行 ， 接 下 来 将 在 一 个 更 大 的 真实 
数据 集 上 测试 一 下 效果 。 具 体 地 ， 下 一 亨 将 检查 其 在 美国 国会 投票 记录 
上 的 处 理 效果 。 








11.5 示例 : 发 现 国会 投票 中 的 模式 


前 面 我 们 已 经 发 现 频繁 项 集 及 关联 规则 ， 现 在 是 时 候 把 这 些 工 具 用 在 真 
实数 据 上 了 。 那 么 可 以 使 用 什么 样 的 数据 呢 ? 购物 是 一 个 很 好 的 例子 ， 
但 是 前 面 已 经 用 过 了 。 为 一 个 例子 是 搜索 引擎 中 的 查询 词 。 这 个 示例 听 
上 去 不 错 ， 不 过 下 面 看 到 的 是 一 个 更 有 趣 的 美国 国会 议员 投票 的 例子 。 


加 州 大 学 埃 文 分 校 的 机 器 学 习 数 据 集合 中 有 一 个 自 1984 年 起 的 国会 投票 
记录 的 数据 

集 : http://archive.ics.uci.edu/ml/datasets/Congressional+Voting+Records。 
这 个 数据 集 有 点 偏 旧 ， 而 且 其 中 的 议题 对 我 来 讲 意义 也 不 大 。 我 们 想 尝 
试 一 些 更 新 的 数据 。 目 前 有 不 少 组 织 致 力 于 将 政府 数据 公开 化 ， 其 中 的 
一 个 组 织 是 智能 投票 工程 (Project Vote Smart， 网 
址 : http://www.votesmart.org) ， 它 提供 了 一 个 公共 的 API。 下 面 会 看 到 
如 何 从 Votesmart.org 获 取 数 据 ， 并 将 其 转化 为 用 于 生成 频繁 项 集 与 关联 
规则 的 格式 。 访 数据 可 以 用 于 竞选 的 目的 或 者 预测 政治 家 如 何 投票 。 


示例 : 在 美国 国会 投票 记录 中 发 现 关 联 规则 

















. 收集 数据 : 使 用 votesmart 模 块 来 访问 投票 记录 。 

. 准备 数据 : 构造 一 个 函数 来 将 投票 转化 为 一 串 交 易 记 录 。 

. 分 析 数 据 : 在 Python 提 示 符 下 查看 准备 的 数据 以 确保 其 正确 性 。 

. 训练 算法 : 使 用 本 章 早先 的 apriori() 和 generateRules() 国 数 来 发 
现 投票 记录 中 的 有 趣 信 息 。 

5. 测试 算法 : 不 适用 ， 即 没有 测试 过 程 。 

6. 使 用 算法 : 这 里 只 是 出 于 娱乐 的 目的 ， 不 过 也 可 以 使 用 分 析 结 果 来 

为 政治 竞选 活动 服务 ， 或 者 预测 选举 官员 会 如 何 投票 。 


接 下 来 ， 我 们 将 处 理 投票 记录 并 创建 一 个 交易 数据 库 。 这 需要 一 些 创造 
性 思维 。 最 后 ， 我 们 会 使 用 本 革 早 先 的 代码 来 生成 频繁 项 集 和 关联 规则 
的 列表 。 

11.5.1 收集 数据 : 构建 美国 国会 投票 记录 的 事务 数据 集 


智能 投票 工程 已 经 收集 了 大 量 的 政府 数据 ， 他 们 同时 提供 了 一 个 公开 的 


请 CD 访 瑚 








API 来 访问 该 数据 http://api.votesmart.org/docs/terms.html。Sunlight 实验 
室 写 过 一 个 Python 模 块 用 于 访问 该 数据 ， 该 模块 

在 https://github.com/sunlightlabs/python-votesmart 中 有 很 多 可 供 参 考 的 文 
档 。 下 面 要 从 美国 国会 获得 一 些 最 新 的 投票 记录 并 基于 这 些 数据 来 尝试 
学 习 一 些 关 联 规则 。 


我 们 希望 最 终 数 据 的 格式 与 图 11-1 中 的 数据 相同 ， 即 每 一 行 代表 美国 

会 的 一 个 成 员 ， 而 每 列 都 是 他 们 投票 的 对 象 。 接 下 来 从 国会 议员 最 近 投 

标的 内 容 开 始 。 如 果 没 有 安装 python-votesmart， 或 者 没有 获得 API 

那么 需要 先 完成 这 两 件 事 。 关 于 如 何 安 装 python-votesmart 可 以 参 
附录 A 。 


要 使 用 votesmartAPI， 需 要 导入 votesmart 模 块 : 





>>> from votesmart import votesmart 


接 下 来 ， 输 入 你 的 API key: 


>>> votesmart.apikey = '49024thereoncewasamanfromnantucket94040 


1. 这 里 的 key 只 是 一 个 例子 。 你 需要 在 http://votesmart.org/share/api/register 申 请 自己 的 key。 





现在 就 可 以 使 用 votesmartAPI 了 。 为 了 获得 最 近 的 100 条 议案 ， 输 入 : 


>>> bills = votesmart.votes.getBillsByStateRecent() 





为 了 看 看 每 条 议案 的 具体 内 容 ， 输 入 : 


>>> bills = votesmart.votes.getBillsByStateRecent() 
To see what each bill is, enter the following: 
>>> for bill in bills: 

print bill.title,bill.billId 





Amending FAA Rulemaking Activities 13020 

Prohibiting Federal Funding of National Public Radio 12939 
Additional Continuing Appropriations 12888 

Removing Troops from Afghanistan 12940 


"Whistleblower Protection" for Offshore 0il Workers 11820 


读者 在 看 本 书 时 ， 最 新 的 100 条 议案 内 容 将 会 有 所 改变 。 所 以 这 里 我 将 
上 述 100 条 议案 的 标题 及 ID 号 (billld) 保存 为 recent160bills .txt 文 
件 。 





可 以 通过 getBil1() 方 法 ， 获 得 每 条 议案 的 更 多 内 容 。 比 如 ， 对 刚才 的 
最 后 一 条 议案 “Whistleblower Protection”， 其 ID 号 为 11820。 下 面 看 看 实 
际 结果 : 


>>> bill = votesmart.votes.getBill(11820) 





上 述 命 令 会 返回 一 个 Billpetail 对 象 ， 其 中 包含 大 量 完整 信息 。 我 们 可 
以 查看 所 有 信息 ， 不 过 这 里 我 们 所 感 兴趣 的 只 是 围绕 议案 的 所 有 行为 。 
可 以 通过 输入 下 列 命令 来 查看 实际 结果 : 


>>> bill.actions 





上 述 命令 会 返回 许多 行为 ， 议 案 包 括 议案 被 提出 时 的 行为 以 及 议案 在 投 
宗 时 的 行为 。 我 们 对 投票 发 生 时 的 行为 感 兴趣 ， 可 以 输入 下 面 命令 来 获 
得 这 些 信 息 3 
>>> for action in bill.actions: 
if action,Sstage=='"Passage ' : 


print action.actionId 


31670 


上 述 信 息 并 不 完整 ， 一 条 议案 会 经 历 多 个 阶段 。 一 项 议案 被 提出 之 后 ， 
经 由 美国 国会 和 众议院 投票 通过 后 ， 才 能 进入 行政 办 公 室 。 其 中 的 
Passage〈 议 案 通 过 ) 阶段 可 能 存在 欺骗 性 ， 因 为 这 有 可 能 是 行政 办 公 室 
的 Passage 阶 段 ， 那 里 并 没有 任何 投票 。 


为 获得 某 条 特定 议案 的 投票 信息 ， 使 用 getBillActionvotes() 方 法 : 


>>> voteList = votesmart.votes.getBillActionVotes(31670) 








其 中 ，voteList 是 一 个 包含 vote 对 象 的 列表 。 输 入 下 面 的 命令 来 看 一 下 
里 面包 含 的 内 容 : 


>>> voteList[22] 


Vote({u'action': U'No Vote', u'candidateId': u'430', u'officeParties':;u'Democrati 
>>> voteList[21] 
Vote({u'action': u'Yea', u'candidateId': u'26756', u'officeParties':u'Democratic' 


现在 为 止 ， 我 们 已 经 用 过 这 些 相关 API， 可 以 将 它们 组 织 到 -一块 了 。 接 
下 来 会 给 出 一 个 函数 将 文本 文件 中 的 billId 转 化 为 actionId。 如 前 所 
述 ， 并 非 所 有 的 议案 都 被 投票 过 ， 另 外 可 能 有 一 些 议案 在 多 处 进行 了 议 
案 投票 。 也 就 是 说 需要 对 actionrd 进 行 过 滤 只 保留 包含 投票 数据 的 
actionId。 这 样 处 理 之 后 将 100 个 议案 过 滤 到 只 剩 20 个 议案 ， 这 些 剩 下 
的 议案 都 是 我 认为 有 趣 的 议案 ， 它 们 被 保存 在 文件 recent20bills.txt 
中 。 下 面 给 出 一 个 getActionIds() 函 数 来 处 理 actionIds 的 过 滤 。 打 

开 apriori.py 文 件 ， 输 入 下 面 的 代码 *。 


2. 不 要 忘 了 使 用 你 自己 的 API key 来 代替 例子 中 的 key! 


程序 清单 11-4 收集 美国 国会 议案 中 action ID 的 函数 


from time import Sleep 

from votesmart import votesmart 

votesmart .apikey = '49024thereoncewasamanfromnantucket94040 
def getActionIds ( ) : 




















actionIdList = []; billTitleList = [] 
fr = open('recent20bills.txt') 
for line in fr.readlines(): 
billNum = int(line.split('\t')[0]) 
try: 
billDetail = votesmart.votes.getBill(billNum) 
for action in billDetail.actions: 
#@@ (以 下 两 行 ) 过滤 出 包含 投票 的 行为 
If action,level == 'House' and (action.stage == 'Passage' or action.stage 
actionId = int(action,actionId ) 
print 'bill: %d has actionId: %d' % (billNum, actionId) 
actionIdList.append(actionId) 
billTitleList.append(line.strip().split('\t')[1]) 
except: 
print "problem getting bill %d" % billNum 
sleep(1) 
#@ 为 礼貌 访问 网 站 而 做 些 延 迟 
return actionIdList, billTitleList 





上 述 程 序 中 导入 了 votesmart 模 块 并 通过 引入 sleep 函 数 来 延迟 API 调 

用 。getActionsIds() 函 数 会 返回 存储 在 recent2gbills.txt 文 件 中 议案 
的 actionId。 程 序 先导 入 API key， 然 后 创建 两 个 空 列 表 。 这 两 个 列表 分 
别 用 来 返回 actionsId 和 标题 。 首 先 打开 recent20bills.txt 文 件 ， 对 每 一 行内 
不 同 元 素 使 用 tab 进 行 分 隔 ， 之 后 进入 try-except 模 块 。 由 于 在 使 用 外 部 
API 时 可 能 会 遇 到 错误 ， 并 且 也 不 想 让 错误 占用 数据 获取 的 时 间 ， 上 述 





try-except 模 块 调用 是 一 种 非常 可 行 的 做 法 。 所 以 ， 首 先 尝 试 使 

用 getBi1l1() 方 法 来 获得 一 个 billDetail 对 象 。 接 下 来 遍历 议案 中 的 所 有 
行为 ， 来 寻找 有 投票 数据 的 行为 。 在 Passage 阶 段 与 Amendment 

Vote〔 修 正 案 投票 ) 阶段 都 会 有 投票 数据 ， 要 找 的 就 是 它们 。 现 在 ， 在 
行政 级 别 上 也 有 一 个 Passage 阶 段 ， 但 那个 阶段 并 不 包含 任何 投票 数据 ， 

所 以 要 确保 这 个 阶段 是 发 生 在 众议院 全。 如 果 确 实 如 此 ， 程 序 就 会 

将 actionId 打 印 出 来 并 将 它 添加 到 actionIdList 中 。 同 时 ， 也 会 将 议案 
的 标题 添加 到 bil1TitleList 中 。 如 果 在 API 调 用 时 发 生 错 误 ， 就 不 会 执 
行 actionIdList 的 添加 操作 。 一 旦 有 错误 就 会 执行 except 模 块 并 将 错误 
信息 输出 。 最 后 ， 程 序 会 休眠 1 秒 钟 ， 以 避免 对 Votesmart.org 网 站 的 过 

度 频 繁 访问 。 程 序 运行 结束 时 ，actionIdList 与 biLlTitleList 会 被 返回 
用 于 进一步 的 处 理 。 


下 面 看 一 下 实际 运行 效果 。 将 程序 清单 11-4 中 的 代码 加 入 到 apriori.py 
文件 后 ， 输 入 如 下 命令 : 


>>> reload(apriori) 

<module 'apriori' from 'apriori.py'> 

>>> actionIdList,billTitles = apriori.getActionIds() 
bill: 12939 has actionId: 34089 

bill: 12940 has actionId: 34091 

bill: 12988 has actionId: 34229 





可 以 看 到 actionId 显 示 了 出 来 ， 所 同时 也 被 添加 到 actionrdList 中 条 

出 ， 以 后 我 们 可 以 使 用 这 些 actionId 了。 如 果 程 序 运 行 错 误 ， 则 尝试 使 

用 try. .except 代 码 来 捕获 错误 。 ee 
遇 到 一 个 错误 。 接 下 里 可 以 继续 来 获取 这 些 actionId 的 投票 信息 


选举 人 可 以 投 是 或 否 的 表决 票 ， 也 可 以 弃权 。 需 要 一 种 方法 来 将 这 些 上 
述 信息 转化 为 类 似 于 项 集 或 者 交易 数据 库 之 类 的 东西 。 前 面 提 到 过 ， 一 
条 交易 记录 数据 只 包含 一 个 项 的 出 现 或 不 出 现 信息 ， 并 不 包含 项 出 现 的 
次 数 。 基 于 上 述 投票 数据 ， 可 以 将 投票 是 或 否 看 成 一 个 元 素 。 


美国 有 两 个 主要 政和 党: 共和 和 党 与 民主 和 党。 下 面 也 会 对 这 些 信 息 进 行 编码 
并 写 到 事务 数据 库 中 。 幸 运 的 是 ， i 已 经 包括 。 下 
面 给 出 构建 事务 数据 库 的 流程 ， 首先 创建 一 个 字典 ,字典 中 使 用 政客 的 
名 字 作为 键 值 。 当 某 政客 首次 出 现时 ， 将 他 及 其 所 属 政党 (民主 党 或 者 





























共和 党 ) 添加 到 字典 中 ， 这 里 使 用 0 来 代表 民主 党 ，1 来 代表 共和 党 。 下 





面 介 绍 如 何 对 投票 进行 编码 。 对 每 条 议案 创建 两 个 条 目 : 


bill+'Yea' 以 


及 bill+'Nay'。 该 方法 允许 在 某 个 政客 根本 没有 投票 时 也 能 合理 编码 。 
图 11-5 给 出 了 从 投票 信息 到 元 素 项 的 转换 结果 。 


© Democrat 


ltem Number 


图 11-5 美国 国会 信息 到 元 素 





N Stop NPR Funding - Nay 

ww Stop NPR Funding - Yea 

££ Remove Troops Afghanistan - Nay 
wm Remove Troops Afghanistan - Yea 
© Stop Home Loan Modification - Nay 


= Republican 


(项 ) 编号 之 间 的 映射 示意 图 





现在 ， 我 们 已 经 有 一 个 可 以 将 投票 编码 为 元 素 项 的 系统 ， 接 下 来 是 时 候 


生成 事务 数据 库 了 。 


一 旦 有 了 事务 数据 库 ， 就 可 以 应 用 早先 写 的 Apriori 


代码 。 下 面 将 构建 一 个 使 用 actionId 串 作为 输入 并 利用 votesmart 的 API 
来 抓 取 投票 记录 的 函数 。 然 后 将 每 个 选举 人 的 投票 转化 为 一 个 项 集 。 每 


个 选举 人 对 应 于 一 


行 或 者 说 事务 数据 库 中 的 一 





条 记录 。 下 面 看 一 下 实际 


的 效果 ， 打 开 apriori.py 文 件 并 添加 下 面 清单 中 的 代码 。 
程序 清单 11-5 基于 投票 数据 的 事务 列表 填充 函数 





def getTransList(actionIdList, 
itemMeaning = ['Republican', 


billTitleList): 


"Democratic '] 


for billTitle in billTitleList: 
#@ (以 下 三 行 ) 填充 itemMeaning 列 表 


itemMeaning.append('%s -- 
itemMeaning.append('%s -- 


transDict = {} 
voteCount = 2 


Nay ， 
Yea' 


% billTitle) 
% billTitle) 


for actionId in actionIdList: 


sleep(3) 
print 'getting votes for 
try: 

voteList = votesmart 


actionId: %d' % actionId 


.Votes.getBillActionVotes(actionId) 


for vote in votelist: 


if not transDict. 


has_key(vote.candidateName): 


transDict[vote.candidateName] = [] 


if vote.officeParties == 'Democratic ' : 
transDict[vote.candidateName].append(1) 
elif vote.officeparties == 'Republican': 
transDict[vote,candidateName].append(0) 
If vote,action == 'Nay': 
transDict[vote.candidateName].append(voteCount) 
elif vote.action == 'Yea': 
transDict[vote.candidateName|].append(voteCount + 1) 
except: 
print "problem getting actionId: %d" % actionId 
voteCount += 2 
return transDict, itemMeaning 


函数 getTransList() 会 创建 一 个 事务 数据 库 ， 于 是 在 此 基础 上 可 以 使 用 
前 面 的 Apriori 代 码 来 生成 频繁 项 集 与 关联 规则 。 该 函数 也 会 创建 一 个 标 
题 列 表 ， 所 以 很 容易 了 解 每 个 元 素 项 的 含义 。 一 开始 使 用 前 两 个 元 
素 "Repbulican" 和 “Democratic 创建 一 个 合 义 列 表 itemMeaning。 当 想 知 
道 某 些 元 素 项 的 有 具体 含义 时 ， 需 要 做 的 是 以 元 素 项 的 编号 作为 索引 访问 
itemMeaning 即 可 。 接 下 来 损 历 所 有 议案 ， 然 后 在 议案 标题 后 添加 

Nay《〈 反 对 ) 或 者 Yea (同意 ) 并 将 它们 放 入 itemmeaning 列 表 中 @， 接 
下 来 创建 一 个 空 字 上 典 用 于 加 入 元 素 项 ， 然 后 遍历 函数 getActionIds() 返 
回 的 每 一 个 actionId。 裔 历时 要 做 的 第 一 件 事 是 休眠 ， 即 在 for 循 环 中 
一 开始 调用 sleep() 函 数 来 延迟 访问 ， 这 样 做 可 以 避免 过 于 频 索 的 API 调 
用 。 接 着 将 运行 结果 打印 出 来 ， 以 便 知道 程序 是 否 在 正常 工作 。 再 接着 
通过 try. .except 块 来 使 用 votesmartAPI 获 取 某 个 特定 actionId 相 关 的 所 
有 投票 信息 。 然 后 ， 裔 历 所 有 的 投票 信息 (通常 voteList 会 超过 400 个 
投票 ) 。 在 过 历时 ， 使 用 政客 的 名 字 作 为 字典 的 键 值 来 填 

充 transDict。 如 果 之 前 没有 遇 到 该 政客 ， 那 么 就 要 获取 他 的 政党 信 
尽 。 字 生 中 的 生 个 政客 部 有 一 个 肛 表 来 存储 亿 投 票 的 元 素 耻 或 者 亿 的 政 
党 信息 。 接 下 来 会 看 到 该 政客 是 何 了 对 当前 议案 投了 赞成 〈Yea) 或 反对 
CNay) 村 如 果 他 们 之 前 有 投票 ， 那 么 不 管 是 投 赞 成 票 还 是 反对 紧 ， 
这 些 信息 都 将 添加 到 列表 中 。 如 果 API 调 用 中 发 生 了 什么 错误 ，except 
模块 中 的 程序 就 会 音 误 信 息 输 出 到 屏幕 上 ， 之 后 函数 仍然 继 
续 执行 。 最 后 ， 程 序 返 回 事务 字典 transDict 及 元 素 项 含义 类 


表 itemMeaning o 


下 面 看 一 下 投票 信息 的 前 两 项 ， 了 解 上 述 代 码 是 否 正 币 工作 : 


>>> reload(apriori) 

<module 'apriori' from 'apriori.py'> 
>>>transDict,itemMeaning=apriori.getTransList(actionIdList[:2],billTitles[:2]) 
getting votes for actionId: 34089 

getting votes for actionId: 34091 
































下 面 看 一 下 transDict 中 包含 的 具体 内 容 : 


>>> for key in transDict.keys(): 
print transDict[key] 


[1, 2, 5] 
[1, 2, 4] 
[0, 3, 4] 
[0, 3, 4] 
[1, 2, 4] 
[0, 3, 4] 
[1] 

[1, 2, 5] 
[1, 2, 4] 
[1] 

[1, 2, 4] 
[0, 3, 4] 
[1, 2, 5] 
[1, 2, 4] 
[0, 3, 4] 


如 果 上 面 许多 列表 看 上 去 都 类 似 的 话 ， 读 者 也 不 要 太 过 担心 。 许 多 政客 
的 投票 结果 都 很 类 似 。 现 在 如 果 给 定 一 个 元 素 项 列表 ， 那 么 可 以 使 
用 itemMeaning 列 表 来 快速 “解码 ?出 它 的 合 义 : 


>>> transDict,.keys()[6] 

u' Doyle, Michael :MIiKke 

>>> for item in transDict[' Doyle, Michael 'Mike'']: 
print itemMeaning[item] 


Republican 
Prohibiting Federal Funding of National Public Radio -- Yea 
Removing Troops from Afghanistan - Nay 





上 述 输出 可 能 因 Votesmart 服 务 器 返回 的 结果 不 同 而 有 所 差异 。 
下 面 看 看 完整 列表 下 的 结果 : 


>>> transDict,itemMeaning=apriori.getTransList(actionIdList, billTitles) 
getting votes for actionId: 34089 
getting votes for actionId: 34091 
getting votes for actionId: 34229 





接 下 来 在 使 用 前 面 开发 的 Apriori 算 法 之 前 ， 需 要 构建 一 个 包含 所 有 事务 
项 的 列表 。 可 以 使 用 类 似 于 前 面 for 循 环 的 一 个 列表 处 理 过 程 来 完成 : 


>>> dataSet = [transDict[key] for key in transDict,keys()] 


上 面 这 样 的 做 法 会 去 掉 键 值 〈 即 政客 ) 的 名 字 。 不 过 这 无 关 紧 有 要， 这些 
信息 不 是 我 们 感 兴趣 的 内 容 。 我 们 感 兴趣 的 是 元 素 项 以 及 它们 之 间 的 关 
0 6 
纲 则 。 


11.5.2 ”测试 算法 : 基于 美国 国会 投票 记录 挖掘 关联 规则 


现在 可 以 应 用 11.3 节 的 Apriori 算 法 来 进行 处 理 。 如 果 使 用 默认 的 文 持 度 
闹 值 50%， 那 么 应 该 不 会 产生 太 多 的 频繁 项 集 : 


>>> L, suppData=apriori.apriori(dataSet, minSupport=0.5) 

>>> 上 

[[frozenset([4]), frozenset([13]), frozenset([0])， frozenset([21])], 
[frozenset([13, 21])], []] 














使 用 一 个 更 小 的 支持 度 闷 值 30% 会 得 到 更 多 频繁 项 集 : 


>>> L, suppData=apriori.apriori(dataSet, minSupport=0.3) 
>>> len(L) 
8 





当 使 用 30% 的 文 持 度 国 值 时 ， 会 得 到 许多 频 索 项 集 ， 甚 全 可 以 得 到 包含 
所 有 7 个 元 素 项 的 6 个 频繁 集 。 


>>> L[6] 
[frozenset([0, 3, 7, 9, 23, 25, 26]), frozenset([0, 3, 4, 9, 23, 25, 26]),frozens 





获得 频繁 项 集 之 后 就 可 以 结束 ， 也 可 以 尝试 使 用 11.4 节 的 代码 来 生成 关 
联 规则 。 首 先 将 最 小 可 信 度 值 设 为 0.7: 


>>> rules = apriori.generateRules(L, suppData) 





这 样 会 产生 太 多 规则 ， 于 是 可 以 加 大 最 小 可 信和 度 值 。 


>>> rules = apriori.generateRules(L, suppData, minConf=0.95) 
frozenset([15]) --> frozenset([1]) conf: 0.961538461538 
frozenset([22]) --> frozenset([1]) conf: 0.951351351351 


frozenset([25, 26, 3, 4]) --> frozenset([0，9，7]) conf: 0.97191011236 
frozenset([0, 25, 26, 4]) --> frozenset([9, 3, 7]) conf: 0.950549450549 


继续 增加 可 信和 度 值 : 


>>> rules = apriori.generateRules(L, suppData, minConf=0.99) 
frozenset([3]) --> frozenset([9]) conf: 1.0 

frozenset([3]) --> frozenset([0]) conf: 0.995614035088 
frozenset([3]) --> frozenset([0，9]) conf: 0.995614035088 
frozenset([26, 3]) --> frozenset([0, 9]) conf: 1.0 
frozenset([9, 26]) --> frozenset([0, 7]) conf: 0.957547169811 


frozenset([23, 26, 3, 4, 7]) --> frozenset([0, 9]) conf: 1.0 
frozenset([23, 25, 3, 4, 7]) --> frozenset([0, 9]) conf: 0.994764397906 
frozenset([25, 26, 3, 4, 7]) --> frozenset([0, 9]) conf: 1.0 


上 面 给 出 了 一 些 有 趣 的 规则 。 如 果 要 找 出 每 一 条 规则 的 含义 ， 则 可 以 将 
规则 号 作为 索引 输入 到 itemMeaning 中 : 


>>> itemMeaning[26] 

"Prohibiting the Use of Federal Funds for NASCAR Sponsorships -- Nay' 
>>> itemMeaning[3] 

"Prohibiting Federal Funding of National Public Radio -- Yea' 

>>> itemMeaning[9] 

'Repealing the Health Care Bill]l -- Yea' 





在 图 11-6 中 列 出 了 下 面 的 几 条 规则 : {3} 一 {0}、{22} 一 {1} 及 {9,26} 一 
{0,7}。 


If Then 可 信和 度 


Prohibiting Federal Funding of ws 0 
National Public Radio ~ Yea Republican 99.6% 
Prohibiting Use of Federal 
Funds For Planned ss Democrat 95.1% 
Parenthood -- Nay 
Prohibiting the Use of Federal 
Funds for NASCAR Republican 
Sponsorships — Nay am And 95 8% 
. 0 
And Terminating the Home 
Repealing the Health Care Bl Afiordable Modification 
— Yea 


Program - Yea 


图 11-6 ”关联 规则 {3} 一 {0、{22} 一 人 1 与 {9,26} 一 {0,7} 的 含义 及 可 信 度 














数据 中 还 有 更 多 有 趣 或 娱乐 性 十 足 的 规则 。 还 记得 前 面 最 早 使 用 的 支持 
度 30% 吗 ?这 意味 着 这 些 规则 至 少 出 现在 30% 以 上 的 记录 中 。 由 于 至 少 
会 在 30% 的 投票 记录 中 看 到 这 些 规则 ， 所 以 这 是 很 有 意义 。 对 于 {3} 一 
{0} 这 条 规则 ， 在 99.6% 的 情况 下 是 成 立 的 。 我 真希 望 在 这 类 事情 上 赌 一 


J 


11.6 示例 : 发 现 毒 蘑 区 的 相似 特征 


有 时 我 们 并 不 想 寻 找 所 有 频 党 项 集 ， 而 只 对 包含 某 个 特定 元 素 项 的 项 集 
感 兴趣 。 在 本 章 这 个 最 后 的 例子 中 ， 我 们 会 寻找 毒 芯 区 中 的 一 些 公 共 特 
征 ， 利 用 这 些 特征 束 能 避免 吃 到 那些 有 毒 的 蘑菇 。UCI 的 机 器 学 习 数 据 
集合 中 有 一 个 关于 肋 形 蘑菇 的 23 种 特征 的 数据 集 ， 每 一 个 特征 都 包含 一 
个 标 称 数据 值 。 我 们 必须 将 这 些 标 称 值 转化 为 一 个 集合 ， 这 一 点 与 前 面 
投票 例子 中 的 做 法 类 似 。 笠 运 的 是 ， 已 经 有 人 已 经 做 好 了 这 种 转换 :。 
Roberto Bayardo 对 UCI 荐 妇 数 据 集 进 行 了 解析 ， 将 每 个 蘑 妇 样本 转换 成 
一 个 特征 集合 。 其 中 ， 枚 举 了 每 个 特征 的 所 有 可 能 值 ， 如 果 某 个 样本 包 
含 特征 ， 那 么 该 特征 对 应 的 整数 值 补 包含 数据 集中 。 下 面 我 们 近 距 离 看 
看 该 数据 集 。 它 在 源 数 据 集合 中 是 一 个 名 为 mushroom.dat 的 文件 。 下 面 
将 它 和 原始 数据 集 http://archive.ics.uci.edu/ml/machine-learning- 
databases/mushroom/agaricus-lepiota.data 进 行 比 较 。 


.be/data/. 











1. “Frequent Itemset Mining Dataset Repository” retrieved July 10, 2011; http://fimi.ua.ac., 





文件 mushroom.dat 的 前 几 行 如 下 : 


139 13 23 25 34 36 38 40 52 54 59 63 67 76 85 86 90 93 98 107 113 
239 14 23 26 34 36 39 40 52 55 59 63 67 76 85 86 90 93 99 108 114 
249 15 23 27 34 36 39 41 52 55 59 63 67 76 85 86 90 93 99 108 115 





第 一 个 特征 表示 有 毒 或 者 可 食用 。 如 条 荣 样 本 有 毒 ， 则 值 为 2。 如 果 可 
食用 ， 则 值 为 1。 下 一 个 特征 是 蘑 茹 伞 的 形状 ， 有 六 种 可 能 的 值 ， 分 别 
用 整数 3-8 来 表示 。 


为 了 找到 毒 蘑菇 中 存在 的 公共 特征 ， 可 以 运行 Apriori 算 法 来 寻找 包含 特 
征 值 为 2 的 频繁 项 集 。 


>>> mushDatSet = [line.split() for line in 
open('mushroom.dat').readlines()] 





在 该 数据 集 上 运行 Apriori 算 法 : 


>>> L, suppData=apriori.apriori(mushDatSet, minSupport=0.3) 


在 结果 中 可 以 搜索 包含 有 毒 特征 值 2 的 频 索 项 集 : 


>>> for item in L[1]: 
if Item,intersection('2'): print item 


) 
frozenset(['39', '2']) 
frozenset(['2', '67']) 
frozenset(['2', '34']) 
frozenset(['2', '23']) 


pe 


也 可 以 对 更 大 的 项 集 来 重复 上 述 过 程 : 


>>> for item in L[3]: 
if item.intersection('2'): print item 


frozenset(['63', '59', '2', '93']) 
frozenset(['39', '2', '53', '34']) 
frozenset(['2', '59', '23', '85']) 
frozenset(['2', '59', '90', '85']) 
frozenset(['39', '2', '36', '34']) 
frozenset(['39', '63', '2', '85']) 
frozenset(['39', '2', '90', '85']) 
frozenset(['2', '59', '90', '86']) 





接 下 来 你 需要 观察 一 下 这 些 特征 ， 以 便 知道 了 解 野 藤 癌 的 那些 方面 。 如 
末 看 到 其 中 任何 一 个 特征 ， 那 么 这 些 蘑 菇 就 不 要 吃 了 。 当 然 ， 最 后 还 要 
声明 一 下 : 尽管 上 述 这 些 特征 在 毒 蘑菇 中 很 普 届 ， 但 是 没有 这 些 特 征 并 
不 意味 该 蘑 下 就 是 可 食用 的 。 如 果 吃 错 了 蘑 站 ， 你 可 能 会 因此 而 丧命 。 








11.7 本 章 小 结 


关联 分 析 是 用 于 发 现 大 数据 集中 元 系 间 有 趣 关 系 的 一 个 工具 集 ， 可 以 采 
用 两 种 方式 来 量化 这 些 有 趣 的 关系 。 第 一 种 方式 是 使 用 频繁 项 集 ， 它 会 
给 出 经 第 在 一 起 出 现 的 元 系 项 。 第 二 种 方式 是 关联 规则， 每 条 关联 规则 
意味 着 元 素 项 之 间 的 “如 果 … 那 么 ”关系 。 


发 现 元 素 项 间 不 同 的 组 合 是 个 十 分 耗 时 的 任务 ， 不 可 避免 需要 大 量 郧 贵 
的 计算 资源 ， 这 束 需 要 一 些 更 智能 的 方法 在 合理 的 时 间 范 围 内 找到 频繁 
项 集 。 能 够 实现 这 一 目标 的 一 个 方法 是 Apriori 算 法 ， 它 使 用 Apriori 原 理 
来 减少 在 数据 库 上 进行 检查 的 集合 的 数目 。Apriori 原 理 是 说 如 果 一 个 元 
素 项 是 不 频繁 的 ， 那 么 那些 包含 该 元 素 的 超 集 也 是 不 频繁 的 。Apriori 算 
法 从 单元 素 项 集 开 始 ， 通 过 组 合 满足 最 小 支持 度 要 求 的 项 集 来 形成 更 大 
的 集合 。 支 持 度 用 来 度量 一 个 集合 在 原始 数据 中 出 现 的 频率 。 


关联 分 析 可 以 用 在 许多 不 同 物品 上 。 商 店 中 的 商品 以 及 网 站 的 访问 页 面 
4 比较 常见 的 例子 。 关 联 分 析 也 曾 用 于 碍 看 选举 人 及 法 官 的 投票 历 




















每 次 增加 频繁 项 集 的 大 小 ，Apriori 算 法 都 会 重新 扫描 整个 数据 集 。 当 数 
据 集 很 大 时 ， 这 会 显 音 降低 频 楷 项 集 发 现 的 速度 。 下 一 章 会 介绍 FP- 
growth 算 法 :， 和 Apriori 算 法 相 比 ， 该 算法 只 需要 对 数据 库 进 行 两 次 遇 
历 ， 能 够 显著 加 快 发 现 繁 项 集 的 速度 。 


1. H. Li Y. Wang, D. Zhang, M. Zhang, and E. Chang, “PFP: Parallel FP-Growth for Query Recommendation,” RecSys 2008, Proceedings of the 2008 ACM Conference on Recomment der 








Systems; http://portal.acm.org/citation.cftm?id=1454027. 





第 12 章 ”使 用 FP-growth 算 法 来 高 效 发 
现 频 尝 项 集 


本 章 内 容 


。 发 现 事务 数据 中 的 公共 模式 
。 FP-growth 算 法 
。 友 现 Twitter 源 中 的 共 现 词 


你 用 过 搜索 引擎 吗 ? 输入 一 个 单词 或 者 单词 的 一 部 分 ， 搜 索引 车 就 会 目 
动 补 全 碍 询 词 项 。 用 户 甚至 事先 都 不 知道 搜索 引擎 推荐 的 东西 是 否 存 

在 ， 反 而 会 去 得 找 推荐 词 项 。 我 也 有 过 这 样 的 经 历 ， 当 我 输入 以 “为 什 
么 ”开始 的 查询 时 ， 有 时 会 出 现 一 些 十 分 滑稽 的 推荐 结果 。 为 了 给 出 这 
些 推荐 查询 词 项 ， 搜 索引 擎 公司 的 研究 人 员 使 用 了 本 章 将 要 介绍 的 一 个 
算法 。 他 们 通过 碍 看 互联 网 上 的 用 词 来 找 出 经 常 在 一 块 出 现 的 词 对 '。 这 
需要 一 种 局 效 发 现 频 繁 集 的 方法 。 


J. Han, J. Pei Y. Yin, R. Mao, “Mining Frequent Patterns without Candidate Generation: A Frequent-Pattern Tree Approach,” Data Mining and Knowledge Discovery 8 (2004), 53-87. 


本 章 会 在 上 一 章 讨 论 话题 的 基础 上 进行 扩展 ， 将 给 出 一 个 非常 好 的 频繁 
项 集 发 现 算法 。 该 算法 称 作 FP-growth， 它 比 上 一 章 讨 论 的 Apriori 算 法 
要 快 。 它 基于 Apriori 构 建 ， 但 在 完成 相同 任务 时 采用 了 一 些 不 同 的 技 
术 。 这 里 的 任务 是 将 数据 集 存 储 在 一 个 特定 的 称 作 FP 树 的 结构 之 后 发 现 
频繁 项 集 或 者 频繁 项 对 ， 即 常 在 一 块 出 现 的 元 素 项 的 集合 FP 树 。 这 种 做 
法 使 得 算法 的 执行 速度 要 快 于 Apriori， 通 常 性 能 要 好 两 个 数量 级 以 上 。 


上 一 章 我 们 讨论 了 从 数据 集中 获取 有 趣 信 息 的 方法 ， 最 第 用 的 两 种 分 别 
古 频 繁 项 集 与 天 联 规则。 第 11 半 中 介绍 了 发 现 频繁 项 集 与 关键 规则 的 算 
法 ， 本 章 将 继续 关注 友 现 频 莹 项 集 这 一 任务 。 我 们 会 深入 探索 该 任务 的 
解决 方法 ， 并 应 用 FP-growth 算 法 进行 处 理 ， 该 算法 能 够 更 有 效 地 挖掘 
这 种 算法 虽然 能 更 为 高 效 地 发 现 频繁 项 集 ， 但 不 能 用 于 发 现 关 联 
纲 则 。 


FP-growth 算 法 只 需要 对 数据 库 进行 两 次 扫描 ， 而 Apriori 算 法 对 于 每 个 
潜在 的 频繁 项 集 都 会 扫描 数据 集 判 定 给 定 模式 是 否 频 繁 ， 因 此 FP- 

















growth 算 法 的 速度 要 比 Apriori 算 法 快 。 在 小 规模 数据 集 上 ， 这 不 是 什么 
问题 ， 但 当 处 理 更 大 数据 集 时 ， 就 会 产生 较 大 问题 。FP-growth 只 会 扫 
描 数据 集 两 次 ， 它 发 现 频繁 项 集 的 基本 过 程 如 下 : 


1. 构建 FP 树 
2. 从 FP 树 中 挖掘 频繁 项 集 


下 面 先 讨论 FP 树 的 数据 结构 ， 然 后 看 一 下 如 何 用 该 结构 对 数据 集 编码 。 
最 后 ， 我 们 会 介绍 两 个 例子 : 一 个 是 从 Twitter 文 本 流 中 挖掘 第 用 词 ， 为 
一 个 从 网 民 网 页 浏览 行为 中 挖掘 常见 模式 。 











12.1 FP 树 : 用 于 编码 数据 集 的 有 效 方式 
FP-growth 算 法 


优点 : 一 般 要 快 于 Apriori 
缺点 : 实现 比较 困难 ， 在 某 些 数据 集 上 性 能 会 下 降 
适用 数据 类 型 : 标 称 型 数据 


FP-growth 算 法 将 数据 存储 在 一 种 称 为 FP 树 的 紧凑 数据 结构 中 。FP 代 表 
频繁 模式 (Frequent Pattern) 。 一 棵 FP 树 看 上 去 与 计算 机 科学 中 的 其 他 
树 结 构 类 似 ， 但 是 它 通过 链接 (ink) 来 连接 相似 元 素 ， 被 连 起 来 的 元 
素 项 可 以 看 成 一 个 链表 。 图 12-1 给 出 了 FP 树 的 一 个 例子 。 





图 12-1 一 棵 FP 树 ,， 看 上 去 和 一 般 的 树 没什么 两 样 ， 包 含 着 连接 相似 
节点 的 链接 


同 搜索 树 不 同 的 是 ， 一 个 元 素 项 可 以 在 一 株 FP 树 中 出 现 多 次 。FP 树 会 

存储 项 集 的 出 现 频 率 ， 而 每 个 项 集会 以 路 径 的 方式 存储 在 树 中 。 存 在 相 
似 元 系 的 集合 会 共 亩 树 的 一 部 分 。 只 有 当 集 合 之 间 完 全 不 同时 ， 树 才 会 
分 又 。“” 树 节点 上 给 出 集合 中 的 单个 元 素 及 其 在 序列 中 的 出 现 次 数 ， 路 
径 会 给 出 该 序列 的 出 现 次 数 。 上 面 这 一 切 听 起 来 可 能 有 点 让 人 迷糊 ， 不 


过 不 用 担心 ， 稍 后 就 会 介绍 FP 树 的 构建 过 程 。 


相似 项 之 间 的 链接 即 节点 链接 (node link) ， 用 于 快速 发 现 相 似 项 的 位 
置 。 为 了 打消 读者 的 疑惑 ， 下 面 通 过 一 个 简单 例子 来 说 明 。 表 12-1 给 出 
了 用 于 生成 图 12-1 中 所 示 FP 树 的 数据 。 


表 12-1 用 于 生成 图 12-1 中 FP 树 的 事务 数据 样 例 





在 图 12-1 中 ， 元 素 项 z 出 现 了 5 次 ， 集 合 {rz} 出 现 了 1 次 。 于 是 可 以 得 出 
结论 : z 一 定 是 自己 本 身 或 者 和 其 他 符号 一 起 出 现 了 4 次 。 我 们 再 看 下 z 
的 其 他 可 能 性 。 集 合 {ts,yxz} 出 现 了 2 次 ， 集 合 {tryxz} 出 现 了 1 次 。 元 
素 项 z 的 右边 标的 是 5， 表 示 z 出 现 了 5 次 ， 其 中 刚才 已 经 给 出 了 4 次 出 
现 ， 所 以 它 一 定单 独 出 现 过 1 次 。 通 过 观察 表 12-1 看 看 刚才 的 结论 是 否 
正确 。 前 面 提 到 {try,x,z} 只 出 现 过 1 次 ， 在 事务 数据 集中 我 们 看 到 005 号 
记录 上 却 是 {yrx,z,qbp}。 那 么 ，q 和 p 去 哪儿 了 呢 ? 


这 里 使 用 第 11 章 给 出 的 文 持 度 定义 ， 该 指标 对 应 一 个 最 小 国 值 ， 低 于 最 
小 阔 值 的 元 素 项 被 认为 是 不 频繁 的 。 如 果 将 最 小 支持 度 设 为 3， 然 后 应 
用 频繁 项 分 析 算 法 ， 就 会 获得 出 现 3 次 或 3 次 以 上 的 项 集 。 上 面 在 生成 图 
a ， 使 用 的 最 小 支持 度 为 3， 因 此 gq 和 p 并 没有 出 现在 最 后 
各 树 中 。 


FP-growth 算 法 的 工作 流程 如 下 。 首 先 构 建 FP 树 ， 然 后 利用 它 来 挖掘 频 
繁 项 集 。 为 构建 FP 树 ， 需 要 对 原始 数据 集 扫 描 两 届 。 第 一 届 对 所 有 元 系 
项 的 出 现 次 数 进行 计数 。 记 住 第 11 章 中 给 出 的 Apriori 原 理 ， 即 如 宁 东 元 
素 是 不 频繁 的 ， 那 么 包含 该 元 系 的 超 集 也 是 不 频繁 的 ， 所 以 束 不 需要 考 
碟 这 些 超 集 。 数 据 库 的 第 一 过 扫 描 用 来 统计 出 现 的 频率 ， 而 第 二 通 扫描 
中 只 考虑 那些 频繁 元 素 。 


FP-growth 的 一 般 流程 























1. 收集 数据 : 使 用 任意 方法 。 
2. 准备 数据 : 由 于 存储 的 是 集合 ， 所 以 需要 离散 数据 。 如 果 要 处 理 连 


中 UI 户 避 


续 数 据 ， 需 要 将 它们 量化 为 离散 值 。 


. 分 析 数 据 : 使 用 任意 方法 。 
. 训练 算法 : 构建 一 个 FP 树 ， 并 对 树 进 行 挖 据 。 
. 测试 算法 : 没有 测试 过 程 。 
. 使 用 算法 : 可 用 于 识别 经 常 出 现 的 元 素 项 ， 从 而 用 于 制定 决策 、 





存 元 素 或 进行 预测 等 应 用 中 。 


推 


12.2 构建 FP 树 


在 第 二 次 扫描 数据 集 时 会 构建 一 棵 FP 树 。 为 构建 一 棵 树 ， 需 要 一 个 容器 
来 保存 树 。 


12.2.1 创建 FP 树 的 数据 结构 


本 章 的 FP 树 要 比 书 中 其 他 树 更 加 复杂 ， 因 此 要 创建 一 个 类 来 保存 树 的 每 
一 个 节 反 。 创 建文 件 fpGrowth.py 并 加 入 下 列 程序 中 的 代码 。 


程序 清单 12-1 FP 树 的 类 定义 


class treeNode: 
def _ init (self, nameValue, numOccur, parentNode): 
self.name = nameValue 
self.count = numOccur 
self.nodeLink = None 
Self,parent = parentNode 
Self,children = {} 





def inc(self, numOccur): 
self.count += numOccur 


de 


h 


disp(self, ind=1): 

print ' '*ind, self.name, ' ', self.count 
for child in self.children.values(): 
child.disp(ind+1) 





上 面 的 程序 给 出 了 FP 树 中 节点 的 类 定义 。 类 中 包含 用 于 存放 节点 名 字 的 
变量 和 1 个 计数 值 ，nodeLink 变 量 用 于 链接 相似 的 元 素 项 (参考 图 12-1 中 
的 虚线 ) 。 类 中 还 使 用 了 父 变 量 parent 来 指 癌 当前 节点 的 父 节点 。 通 常 
情况 下 并 不 需要 这 个 变量 ， 因 为 通常 是 从 上 往 下 迭代 访问 节点 的 。 本 章 
后 面 的 内 容 中 需要 根据 给 定 叶 子 节 点 上 济 整 棵 树 ， 这 时 束 需 要 指 问 父 节 
a 

















程序 清单 12-1 中 包括 两 个 方法 ， 其 中 inc() 对 count 变 量 增加 给 定 值 ， 而 
另 一 个 方法 disp() 用 于 将 树 以 文本 形式 显示 。 后 者 对 于 树 构建 来 说 并 不 
是 必要 的 ， 但 是 它 对 于 调试 非常 有 用 。 














>>> import fpGrowth 
>>> rootNode = fpGrowth.treeNode('pyramid',9, None) 





这 会 创建 树 中 的 一 个 单 节 点 。 接 下 来 为 其 增加 一 个 子 节 点 : 


>>> rootNode.children['eye']=fpGrowth,.treeNode('eye', 13, None) 


为 显示 子 节 点 ， 输 入 : 


>>> rootNode.disp() 
pyramid 9 
eye 13 





再 添加 一 个 贡 点 看 看 两 个 子 节点 的 展示 效果 : 


>>> rootNode.children['phoenix']=fpGrowth.treeNode('phoenix', 3, None) 
>>> rootNode.disp() 
pyramid 9 
eye 13 
phoenix 3 





现在 FP 树 所 需 数 据 结 构 已 经 建 好 ， 下 面 束 可 以 构建 FP 树 了 。 
12.2.2 ”构建 FP 树 
除了 图 12-1 给 出 的 FP 树 之 外 ， 还 需要 一 个 头 指 针 表 来 指 同 给 定 类 型 的 第 


一 个 实例 。 利 用 头 指针 表 ， 可 以 快速 访问 FP 树 中 一 个 给 定 类 型 的 所 有 元 
素 。 图 12-2 给 出 了 一 个 头 指针 表 的 示意 图 。 











图 12-2 ”带头 指针 表 的 FEP 树 ， 头 指针 表 作 为 一 个 起 始 指针 来 发 现 相 似 
元 素 项 





这 里 使 用 一 个 字典 作为 数据 结构 ， 来 保存 头 指针 表 。 除 了 存放 指针 外 ， 
头 指 针 表 还 可 以 用 来 保存 FP 树 中 每 类 元 素 的 总 数 。 


第 一 次 过 历数 据 集会 获得 每 个 元 素 项 的 出 现 频 率 。 接 下 来 ， 去 掉 不 满足 
最 小 文 持 度 的 元 素 项 。 再 下 一 步 构建 FP 树 。 在 构建 时 ， 读 入 每 个 项 集 并 
将 其 添加 到 一 条 已 经 存在 的 路 径 中 。 如 果 该 路 径 不 存在 ， 则 创建 一 条 新 
路 径 。 每 个 事务 就 是 一 个 无 序 集合 。 假 设 有 和 集合 {z,x,y} 和 {y,z,r}， 那 么 
在 FP 树 中 ， 相 同 项 会 只 表示 一 次 。 为 了 解决 此 问题 ， 在 将 集合 添加 到 树 
之 前 ， 需 要 对 每 个 集合 进行 排序 。 排 序 基 于 元 素 项 的 绝对 出 现 频率 来 进 
行 。 使 用 图 12-2 中 的 头 指针 节点 值 ， 对 表 12-1 中 数据 进行 过 滤 、 重 排序 
后 的 数据 显示 在 表 12-2 中 。 


表 12-2 将 非 频 蚂 项 移 除 并 且 重 排序 后 的 事务 数据 集 


事务 ID 事务 中 的 元 素 项 ”过滤 及 重 排 序 后 的 事务 
j Tk 




















001 Bn 





在 对 事务 记录 过 滤 和 排序 之 后 ， 就 可 以 构建 FP 树 了 。 从 空 集 ( 符 写 为 
G) 开始 ， 同 其 中 不 断 添加 频繁 项 集 。 过 小 、 排 序 后 的 事务 依次 添加 到 
树 中 ， 如 果树 中 已 存在 现 有 元 系 ， 则 增加 现 有 元 素 的 值 ， 如 果 现 有 元 系 
不 存在 ， 则 癌 树 添加 一 个 分 校 。 对 表 12-2 前 两 条 事务 进行 添加 的 过 程 显 








示 在 图 12-3 中 。 


图 12-3 ”FP 树 构 建 过 程 的 一 个 示意 图 ， 图 中 给 出 了 使 用 表 12-2 中 数据 
构建 FP 树 的 前 两 步 。 


Add {z, r} 





通过 上 面 的 叙述 ， 我 们 大 致 了 解 了 从 事务 数据 集 转 换 为 FP 树 的 基本 思 
想 ， 接 下 来 我 们 通过 代码 来 实现 上 述 过 程 。 打 开 fpGrowth.py 文 件 ， 加 
入 下 面 的 代码 。 


程序 清单 12-2 FP 树 构 建 函 数 


def createTree(dataset, minSup=1): 
headerTable = 人 
for trans in dataSet 
for Item in trans : 
headerTable[item] = headerTable.get(item, 0) + dataSet[trans] 
#@ (以 下 三 行 ) 移 除 不 满足 最 小 支持 度 的 元 素 项 
for k in headerTable.keys(): 
If headerTable[k] < minSup: 
del(headerTable[k]) 
freqItemSet = set(headerTable.keys()) 
#@ 如 果 没有 元 素 项 满足 要 求 ， 则 退出 
if len(freqItemSet) == 0: return None, None 
for k in headerTable: 
headerTable[k] = [headerTable[k], Nonel] 
retTree = treeNode('Null Set', 1, None) 
for tranSset, count in dataSet.items(): 
localD = {} 
#@ (以 下 三 行 ) 根据 全 局 频率 对 每 个 事务 中 的 元 素 进行 排 月 
for item in transSet : 
If item in fredqItemSet : 
localD[item|] = headerTable[item][ 
if len(localD) > 0: 
orderedItems = [v[0] for v in sorted(localD.items(),Kkey=lambda p: p[1 






























































#@@ 使 用 排序 后 的 频率 项 集 对 树 进 行 填充 
updateTree(orderedItems, retTree, headerTable, count) 
return retTree, headerTable 

















def updateTree(items, inTree, headerTable, count): 

If items[0] in inTree.children: 

inTree.children[items[0]].inc(count) 
else: 

inTree.children[items[0]] = treeNode( 

If headerTable[items[0]][1] == None: 

headerTable[items[0]][1] = inTree. 
else: 
updateHeader (headerTable[items[0]][1],inTree.children[items[0]]) 

if len(items) > 1: 

#@@ 对 剩 下 的 元 素 项 迭代 调用 updateTree 函 数 

updateTree(items[1::], inTree.children[items[0]],headerTable, count) 























def updateHeader (nodeToTest, targetNode): 
while (nodeToTest.nodeLink != None): 
nodeToTest = nodeToTest.nodeLink 
nodeToTest .nodeLink = targetNode 


上 述 代 码 中 包含 3 个 函数 。 第 一 个 函数 createTree( ) 使 用 数据 集 以 及 最 

小 支持 度 作 为 参数 来 构建 FP 树 。 树 构建 过 程 中 会 遍历 数据 集 两 次 。 第 一 
次 遍历 扫 朱 数据 集 并 统计 每 个 元 素 项 出 现 的 频 度 。 这 些 信息 被 存储 在 头 
指针 表 中 。 接 下 来 ， 扫 描 头 指针 表 删 掉 那 些 出 现 次 数 少 于 minsup 的 项 

@， 如 果 所 有 项 都 不 频繁 ， 就 不 需要 进行 下 一 步 处 理 信 。 接 下 来 ， 对 头 
指针 表 稍 加 扩展 以 便 可 以 保存 计数 值 及 指向 每 种 类 型 第 一 个 元 素 项 的 指 
针 。 然 后 创建 只 包含 空 集合 @ 的 根 节点 。 最 后 ， 再 一 次 遍历 数据 集 ， 这 
次 只 考虑 那些 频繁 项 @。 这 些 项 已 经 如 表 12-2 所 示 那 样 进行 了 排序 ， 然 
后 调用 updateTree() 方 法 四。 接 下 来 讨论 函数 updateTree( ) 。 


为 了 让 FP 树 生长 :， 需 调用 updateTree， 其 中 的 输入 参数 为 一 个 项 集 。 图 
12-3 给 出 了 updateTree() 中 的 执行 细节 。 该 函数 首先 测试 事务 中 的 第 一 
个 元 素 项 是 耕作 为 子 节 点 存在 。 如 果 存 在 的 话 ， 则 更 新 该 元 素 项 的 计 

数 ， 如 果 不 存 在 ， 则 创建 一 个 新 的 treeNode 并 将 其 作为 一 个 子 节 点 添加 
到 树 中 。 这 时 ， 头 指针 表 也 要 更 新 以 指 癌 新 的 节点 。 更 新 头 指 针 表 需要 
调用 函数 updateHeader()， 接 下 来 会 讨论 该 函数 的 细节 。updateTree() 
a 
站 元 系 回 。 


1. 这 就 是 FP-growth 中 的 growth (生长 ) 一 词 的 来 源 。 


程序 清单 12-2 中 的 最 后 一 个 函数 是 updateHeader()， 它 确保 节点 链接 指 
癌 树 中 该 元 素 项 的 每 一 个 实例 。 从 头 指 针 表 的 nodeLink 开 始 ， 一 直 洛 





























着 nodeLink 直 到 到 达 链 表 末 尾 。 这 就 是 一 个 链表 。 当 处 理 树 的 时 候 ， 2 

种 很 自然 的 反应 束 是 迭代 完成 每 一 件 事 。 当 以 相同 方式 处 理 链表 时 可 能 

人 原因 是 如 果 链 表 很 长 可 能 会 遇 到 迭代 调用 的 次 数 限 
i。 


在 运行 上 例 之 前 ， 还 需要 一 个 真正 的 数据 集 。 这 可 以 从 本 书 附带 的 代码 
库 中 获得 ， 或 者 直接 手工 输入 。1loadsimpDpat() 函 数 会 返回 一 个 事务 列 
表 。 这 和 表 12-1 中 的 事务 相同 。 后 面 构 建树 时 会 使 用 createTree() 耳 
数 ， 而 该 函数 的 输入 数据 类 型 不 是 列表 。 其 需要 的 是 一 部 字典 ， 其 中 项 
集 为 字典 中 的 键 ， 而 频率 为 每 个 键 对 应 的 取 值 。createInitset() 用 于 实 
ee 将 下 列 代 人 码 添 加 到 fpGrowth .py 
pa . 


程序 清单 12-3 简单 数据 集 及 数据 包装 右 


def loadSsimpDat(): 
simpDat = [['r', 'z' 
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了 
return simpDa 


def createInitSet(dataSet ) : 
retDict = {} 
for trans in dataSet: 
retDict[frozenset(trans)] = 1 
return retDict 


好 了 ， 下面 看 看 实际 的 效果 。 将 程序 清单 12-3 中 的 代码 加 入 文件 
fpGrowth.py 之 后 ， 在 Python 提 示 符 下 输入 命令 : 


>>> reload(fpGrowth) 
<module 'fpGrowth' from 'fpGrowth.py'> 


首先 ， 导 入 数据 库 实例 : 


>>> simpDat = fpGrowth.1loadSsimpDat() 

>>> simpDat 

[E'r', 2 a ma] 'p'], EZ ys Ck "WwW' "V 'U', CE "e+ ]7 
['z"'], EE 'x', ‘n'y, 'O', 's'], ['y', Ck Xr MZ Joy EE 'p'], 
['y', 7 Xs 'e', 'q', LS DE 'm']] 


接 下 来 为 了 函数 createTree()， 需 要 对 上 面 的 数据 进行 格式 化 处 理 : 


>>> initSet = fpGrowth.createInitSet(simpDat) 
>>> initSet 
{frozenset(['e', 'm', 'q', 'S', 't', 'y', 'x', 'zZ']): 1, frozenset(['x','s', 'r', 


于 是 可 以 通过 如 下 命令 创建 FP 树 : 


>>> myFPtree, myHeaderTab = fpGrowth.createTree(initSet, 3) 


使 用 disp() 方 法 给 出 树 的 文本 表示 结 


>>> myFPtree.disp() 
Null Set 1 
x 1 


上 面 给 出 的 是 元 素 项 及 其 对 应 的 频率 计数 值 ， 其 中 每 个 缩 进 表示 所 处 的 
树 的 深 有 度 。 读 者 可 以 验证 一 下 这 标 树 与 图 12-2 中 所 示 的 树 是 否 等 价 。 


现在 我 们 已 经 构建 了 FP 树 ， 接 下 来 就 使 用 它 进行 频繁 项 集 挖掘 。 


12.3 ”从 一 棵 FP 树 中 挖掘 频繁 项 集 


实际 上 ， 到 现在 为 止 大 部 分 比较 困难 的 工作 已 经 处 理 完 了 。 接 下 来 写 的 
代码 不 会 再 像 12.2 市 那样 多 了 。 有 了 FP 树 之 后 ， 残 可 以 抽取 频繁 项 集 
了 。 这 里 的 患 路 与 Apriori 算 法 大 至 类 似 ， 弟 先 从 单元 素 项 集合 开始 ， 然 
后 在 此 基础 上 逐步 构建 更 大 的 集合 。 当 然 这 里 将 利用 FP 树 来 做 实现 上 述 
过 程 ， 不 再 需要 原始 数据 集 了 。 


从 FP 树 中 抽取 频 索 项 集 的 三 个 基本 步骤 如 下 : 








1. 从 FP 树 中 获得 条 件 模 式 基 ; 
2. 利用 条 件 模 式 基 ， 构 建 一 个 条 件 FP 树 ; 
3. 迭代 重复 步骤 1 和 步骤 2， 直 到 树 包 含 一 个 元 素 项 为 止 。 


接 下 来 重点 关注 第 1 步 ， 即 寻找 条 件 模式 基 的 过 程 。 之 后 ， 为 每 一 个 条 
件 模 式 基 创建 对 应 的 条 件 FP 树 。 最 后 需要 构造 少许 代码 来 封装 上 述 两 个 
函数 ， 并 从 FP 树 中 获得 频 索 项 集 。 


12.3.1 抽取 条 件 模式 基 


首先 从 上 一 节 发 现 的 已 经 保存 在 头 指 针 表 中 的 单个 频繁 元 素 项 开始 。 对 
于 每 一 个 元 素 项 ， 获 得 其 对 应 的 条 件 模式 基 (conditional pattern 
base) 。 条 件 模式 基 是 以 所 碍 找 元 素 项 为 结尾 的 路 径 集合 。 每 一 条 路 径 
其 实 都 是 一 条 前 级 路 径 (prefix path) 。 简 而 言 之 ， 一 条 前 级 路 径 是 介 


于 所 查找 元 素 项 与 树 根 市 点 之 间 的 所 有 内 容 。 


回 到 图 12-2， 符 号 ?的 前 级 路 径 是 {x,s}、{z,x,y} 和 {z}。 每 一 条 前 级 路 径 
都 与 一 个 计数 值 关 联 。 该 计数 值 等 于 起 始 元 素 项 的 计数 值 ， 该 计数 值 给 
0 。 表 12-3 列 出 了 上 例 当 中 每 一 个 频繁 项 的 所 有 前 

级 路 和 任 。 


表 12-3 每 个 频繁 项 的 前 绥 路 径 
频繁 项 前 级 路 径 











{Zz,x,y}2, {x}1 
{2,X,y,5}2, {2Z,X,y,r}1 


前 级 路 径 将 被 用 于 构建 条 件 FP 树 ,但 古 现在 暂时 先 不 需要 考虑 这 件 事 。 
为 了 获得 这 些 前 级 路 径 ， 可 以 对 网 进行 穷 举 式 搜索 ， 直 到 获得 夫 要 的 频 
繁 项 为 止 ， 或 者 使 用 一 个 更 有 效 的 方法 来 加 速 搜 索 过 程 。 可 以 利用 先前 
创建 的 类 指针 表 来 得 到 一 种 更 有 效 的 方法 。 头 指针 表 包 含 相同 关 型 元 素 
0 一 旦 到 达 了 每 一 个 元 素 项 ， 残 可 以 上 济 这 标 树 直到 根 
万 扩 为 止 。 


下 面 的 程序 清单 给 出 了 前 级 路 径 发 现 的 代码 ， 将 其 添加 到 文件 
fpGrowth .py 中 o 


程序 清单 12-4 发 现 以 给 定 元 素 项 络 尾 的 所 有 路 径 的 函数 


def ascendTree(leafNode, prefixPath): 
#@ 友 代 上 漳 整 棵 树 
if leafNode.parent != None: 
prefixPath.append(leafNode.name) 
ascendTree(leafNode.parent, prefixPath) 








def findPrefixPath(basePat, treeNode): 

condPats = {} 

while treeNode != None: 
prefixPath = [] 
ascendTree(treeNode, prefixPath) 
if len(prefixPath) > 1: 

condPats[frozenset(prefixPath[1:])] = treeNode.count 

treeNode = treeNode.nodeLink 

return condPats 





上 述 程序 中 的 代码 用 于 为 给 定 元 陛 项 生成 一 个 条 件 模 式 基 ， 这 通过 访问 
树 中 所 有 包含 给 定 元 素 项 的 节点 来 完成 。 当 创建 树 的 时 候 ， 使 用 头 指针 
表 来 指向 该 类 型 的 第 一 个 元 素 项 ， 该 元 素 项 也 会 链接 到 其 后 续 元 素 项 
函数 findprefixpath() 遍 历 链表 直到 到 达 & 吉 尾 。 每 遇 到 一 个 元 素 项 都 会 
调用 ascendTree() 来 上 渊 FP 树 ， 并 收集 所 有 遇 到 的 元 素 项 的 名 称 @@. 该 
列表 返回 之 后 添加 到 条 件 模式 基 字 典 condPats 中 。 


使 用 之 前 构建 的 树 来 看 一 下 实际 的 运行 效果 : 


>>> reload(fpGrowth ) 

<module 'fpGrowth' from 'fpGrowth.py'> 

>>> fpGrowth.findPrefixPath('x', myHeaderTab['x'][1]) 

{frozenset(['z']): 3} 

>>> fpGrowth.findPprefixPath('z', myHeaderTab['z'][1]) 

{} 

>>> fpGrowth.findPrefixPath('r', myHeaderTab['r'][1]) 

{frozenset(['x', 's']): 1, frozenset(['z']): 1,frozenset(['y', 'x', 'z']): 1} 








读者 可 以 检查 一 下 这 些 值 与 表 12-3 中 的 结果 是 个 一 致 。 有 了 条 件 模式 基 
之 后 ， 就 可 以 创建 条 件 FP 树 。 


12.3.2 ”创建 条 件 FP 树 


对 于 每 一 个 频 楷 项 ， 都 要 创建 一 株 条 件 FP 树 。 我 们 会 为 z>、x 以 及 其 他 频 
索 项 构建 条 件 树 。 可 以 使 用 刚才 发 现 的 条 件 模式 基 作 为 输入 数据 ， 并 通 
过 相同 的 建树 代码 来 构建 这 些 树 。 然 后 ， 我 们 会 递归 地 发 现 频 票 项、 发 
现 条 件 模式 基 ， 以 及 发 现 另外 的 条 件 树 。 举 个 例子 来 说 ， 假 定 为 频繁 项 
t 创 建 一 个 条 件 FP 树 ， 然 后 对 {by}、{bx} 重 复 该 过 程 ，.…。 元 素 项 t 的 条 
件 FP 树 的 构建 过 程 如 图 12-4 所 示 。 





t 的 条 件 FP 树 


条 件 模式 基 : {y,x,s,z}:2, {y,x,r;,z}:1 
最 小 支持 度 = 3 
去 掉 : 3 


加 


‘XZ}:2 : 入 Caacpzh3 
上 y:3| 





图 12-4 t 的 条 件 FP 树 的 创建 过 程 。 最 初 树 以 空 集 作 为 根 节 点 。 接 下 
来 ， 原 始 的 集合 {yxszj 中 的 集合 {y,xz} 被 添加 进来 。 因 为 不 满足 最 小 
支持 度 要 求 ， 字 符 s 并 没有 加 入 进来 。 类 似 地 ，{y,x,z} 也 从 原始 集合 
{y,X,r,Z} 中 添加 进来 


在 图 12-4 中 ， 注 意 到 元 素 项 s 以 及 r 是 条 件 模式 基 的 一 部 分 ， 但 是 它们 并 
不 属于 条 件 FP 树 。 原 因 是 什么 ? 如 果 讨 论 s 以 及 r 的 话 ， 它 们 难道 不 是 频 
繁 项 吗 ? 实际 上 单独 来 看 它们 都 是 频繁 项 ， 但 是 在 t 的 条 件 树 中 ， 它 们 
却 不 是 频 蚂 的 ， 也 就 是 说 ，{trf} 及 {t,s} 是 不 频繁 的 。 











接 下 来 ， 对 集合 {tz}、{t,x} 以 及 {ty} 来 挖掘 对 应 的 条 件 树 。 这 会 产生 更 
复杂 的 频繁 项 集 。 该 过 程 重复 进行 ， 直 到 条 件 树 中 没有 元 素 为 止 ， 然 后 
就 可 以 停止 了 。 实 现代 码 相 对 比较 直观 ， 使 用 一 些 递归 加 上 之 前 写 的 代 
人 码 束 可 以 完成 。 打 开 fperowth.py， 将 下 面 程序 中 的 代码 添加 进去 。 


程序 清单 12-5 递归 查找 频繁 项 集 的 mineTree 函 数 


def mineTree(inTree, headerTable, minSup, preFix, freqItemList): 
#@ 从 头 指针 表 的 底 端 开始 
bigL = [v[0] for v in sorted(headerTable.items(),Kkey=lambda p: p[1])] 
for basePat in bigL: 
newFreqSet = preFix.copy() 
newFreqSet .add(basePat ) 
freqItemList.append(newFreqSet) 
condPattBases = findPrefixPath(basePat, headerTable[basePat][1]) 
#@@ 从 条 件 模式 基 来 构建 条 件 FP 树 
myCondTree, myHead = createTree(condPattBases,minSup) 
#@ 挖掘 条 件 FP 树 
if myHead != None: 
mineTree(myCondTree, myHead, minSup, newFreqSet, freqIitemList) 











创建 条 件 树 、 前 绥 路 径 以 及 条 件 基 的 过 程 听 起 来 比较 复杂 ， 但 是 代码 起 
来 相对 简单 。 程 序 首先 对 头 指 针 表 中 的 元 素 项 按照 其 出 现 频率 进行 排 

序 。〈 记 住 这 里 的 默认 顺序 是 按照 从 小 到 大 。) 人 @ 然 后， 将 每 一 个 频繁 
项 添加 到 频繁 项 集 列表 freqItemList 中 。 接 下 来 ， 递归 调用 程序 清单 12- 
4 中 的 findprefixpPath() 函 数 来 创建 条 件 基 。 该 条 件 基 被 当成 一 个 新 数据 
集 输 送 给 createTree() 男 数 。 入 这 里 为 函数 createTree( ) 添 加 了 足够 的 
灵活 性 ， 以 确保 它 可 以 被 重用 于 构建 条 件 树 。 最 后 ， 如 果树 中 有 元 素 项 
的 话 ， 递 归 调 用 mineTree() 函 数 个。 


下 面 将 整个 程序 合并 到 一 块 看 看 代码 的 实际 运行 效果 。 将 程序 清单 12-5 
代码 添加 到 文件 fpGrowth.py 中 并 保存 ， 然 后 在 Python 提示 符 下 输 





>>> reload(fpGrowth ) 
<module 'fpGrowth' from 'fpGrowth.py'> 


下 面 建 立 一 个 空 列表 来 存储 所 有 的 频繁 项 集 : 


>>> freqItems = [] 


接 下 来 运行 mineTree()， 显 示 出 所 有 的 条 件 树 : 


>>> fpGrowth.mineTree(myFPtree, myHeaderTab, 3, set([]), freqItems) 
conditional tree for: set(['y']) 
Null Set 1 
x 3 
Zz 3 
conditional tree for: set(['y', 'z']) 
Null Set 1 
x 3 
conditional tree for: set(['s']) 
Null Set 1 
x 3 
conditional tree for: set(['t']) 
Null Set 1 
y 3 
X 3 
Zz 3 
conditional tree for: set(['x', 't']) 
Null Set 1 
3 
conditional tree for: set(['z', 't']) 
Null Set 1 
y 3 
X 3 
conditional tree for: set(['x', 'z', 't']) 
Null Set 1 
y 3 
conditional tree for: set(['x']) 
Null Set 1 
Zz 3 


为 了 获得 类 似 于 前 面 代码 的 输出 结果 ， 我 在 函数 mineTree( ) 中 添加 了 两 
行 : 


print 'conditional tree for: ',newFreqSet 
myCondTree.disp(1) 


这 两 行 被 添加 到 程序 中 语句 if myHead != None: 和 mineTree() 函 数 调 用 
| 


下 面 检查 一 下 返回 的 项 集 是 否 与 条 件 树 匹 配 : 


>>> freqItems 
[set(['y']), set(['y'’, 'z']), set(['y', 'x', 'z']), set(['y', 'x']),set(['s']), st 


正如 我 们 所 期 望 的 那样 ， 返 回 项 集 与 条 件 FP 树 相 匹 配 。 到 现在 为 主 ， 完 
整 的 FP-growth 算 法 已 经 可 以 运行 ， 接 下 来 在 一 个 真实 的 例子 上 看 一 下 
运行 效果 。 我 们 将 看 到 是 否 能 从 微 博 网 站 Twitter 中 获得 一 些 常用 词 。 








12.4 示例 : 在 Twitter 源 中 发 现 一 些 共 现 
词 


我 们 会 用 到 一 个 叫做 python-twitter 的 Python 库 ， 其 源 代码 可 以 在 
http:/code.google.com/p/python-twitter 下载 。 正 如 你 狂 到 的 那样 ， 借 助 
它 ， 我 们 可 以 使 用 Python 来 访问 Twitter。Twitter.com 实 际 上 是 一 个 和 其 
他 人 进行 交流 的 通道 ， 其 上 发 表 的 内 容 被 限制 在 140 个 字符 以 内 ， 人 发 表 
的 一 条 信息 称 为 推 文 (tweet) 。 


有 关 Twitter API 的 文档 可 以 在 http:/dev.twitter.comy/doc 找 到 。API 文 档 与 
Python 模块 中 的 关键 词 并 不 完全 一 致 。 我 推荐 直接 阅读 Python 文件 
twitter.py， 以 完全 理解 库 的 使 用 方法 。 有 关 该 模块 的 安装 可 以 参考 附 
录 A。 虽 然 这 里 只 会 用 到 函数 库 的 一 小 部 分 ， 但 是 使 用 API 可 以 做 更 多 
事情 ， 上 所 以 我 鼓励 读者 去 探索 一 下 API 的 所 有 功能 。 


示例 : 发 现 Twitter 源 中 的 共 现 词 《co-occurring word ) 








1. 收集 数据 : 使 用 Python-twitter 横 块 来 访问 推 文 。 

2. 准备 数据 : 编写 一 个 函数 来 去 掉 URL、 去 掉 标 点 、 转 换 成 小 写 并 从 
字符 串 中 建立 一 个 单词 集合 。 

3. 分 析 数 据 : 在 Python 提示 符 下 查看 准备 好 的 数据 ， 确 保 它 的 正确 


性 。 

4. 训练 算法 : 使 用 本 章 前 面 开 发 的 createTree() 与 mineTree() 函 数 执 
行 FP-growth 算 法 。 

5. 测试 算法 : 这 里 不 适用 。 

6. 使 用 算法 : 本 例 中 没有 包含 具体 应 用 ， 可 以 考虑 用 于 情感 分 析 或 者 
查询 推荐 领域 。 


在 使 用 API 之 前 ， 需 要 两 个 证 书 集 合 。 第 一 个 集合 是 consumer_key 和 
consumer_secret， 当 注册 开发 app 时 

(https://dev.twitter.com/apps/new) ， 可 以 从 Twitter 开发 服务 网 站 获得 。 
这 些 key 对 于 要 编写 的 app 是 特定 的 。 第 二 个 集合 是 access_token_key 和 
access_token_secret， 它 们 是 针对 特定 Twitter 用 户 的 。 为 了 获得 这 些 
key， 需 要 查看 Twitter-Python 安装 包 中 的 get_access_token.py 文 件 (或 者 
从 Twitter 开发 网 站 中 获得 ) 。 这 是 一 个 命令 行 的 Python 脚本 ， 该 脚本 使 























用 OAuth 来 告诉 Twitter 应 用 程序 具有 用 户 的 权限 来 发 布 信息 。 一 旦 完成 
上 述 工 作 之 后 ， 可 以 将 获得 的 值 放 入 前 面 的 代码 中 开始 工作 。 对 于 给 定 
的 搜索 词 ， 下 面 要 使 用 FP-growth 算 法 来 发 现 推 文中 的 频繁 单词 集合 。 
要 提取 尽 可 能 多 的 推 文 〈1400 条 ) 然后 放 到 FP-growth 算 法 中 运行 。 将 
下 面 的 代码 添加 到 fpGrowth.py 文 件 中 。 


程序 清单 12-6 ”访问 Twitter Python 库 的 代码 


import twitter 
from time import sleep 
import re 


def getLotsOofTweets(searchstr): 
CONSUMER_KEY = 'get when you create an app' 
CONSUMER_SECRET = 'get when you create an app' 
ACCESS_TOKEN_KEY = 'get from Oauth, specific to a user' 
ACCESS_TOKEN_SECRET = 'get from Oauth, specific to a user' 
api = twitter.Api(consumer_key=CONSUMER_KEY,consumer_secret=CONSUMER_SECRET,a 
#you can get 1500 results 15 pages * 100 per page 
resultsPages = [] 
for i in range(1,15): 
print "fetching page %d" % i 
searchResults = api.GetSearch(searchstr, per_page=100, page=i) 
resultsPages.append(searchResults) 
sleep(6) 
return resultsPages 


这 里 需要 导入 三 个 库 ， 分 别 是 twitter 库 、 用 于 正则 表达 式 的 库 ， 以 及 
sleep 阔 数 。 后 面 会 使 用 正则 表示 式 来 帮助 解析 文本 。 


函数 getLotsofTweets() 处 理 认证 然后 创建 一 个 空 列表 。 搜 索 API 可 以 一 
次 获得 100 条 推 文 。 每 100 条 推 文 作为 一 页 ， 而 Twitter 允许 一 次 访问 14 

页 。 在 完成 搜索 调用 之 后 ， 有 一 个 6 秒 钟 的 睡眠 延迟 ， 这 样 做 是 出 于 礼 
print 语 句 用 于 表明 程序 仍 在 执行 没有 


下 面 来 抓 取 一 些 推 文 ， 在 Python 提示 符 下 输入 : 


>>> reload(fpGrowth ) 
<module 'fpGrowth' from 'fpGrowth.py'> 








接 下 来 要 搜索 一 文 名 为 RIMM 的 股票 : 


>>> lotsOtweets = fpGrowth.getLotsOofTweets('RIMM') 
fetching page 1 


fetching page 2 


lotsotweets 列 表 包 含 14 个 子 列表 ， 每 个 子 列表 有 100 条 推 文 。 可 以 输入 
下 面 的 命令 来 查看 推 文 的 内 容 : 
>>> lotsOtweets[0][4].text 


U"RIM: Open The Network, Says ThinkEquity: In addition, RIMM needs to 
reinvent its image, not only demonstrating ... http://bit.1ly/lvlViU" 


正如 所 看 到 的 那样 ， 有 些 人 会 在 推 文中 放 入 URL。 这 样 在 解析 时 ， 结 果 
就 会 比较 乱 。 因 此 必须 去 挥 URL， 以 便 可 以 获得 推 文 中 的 单词 。 下 面 程 
序 清单 中 的 一 部 分 代码 用 来 将 推 文 解析 成 字符 串 列表 ， 男 一 部 分 会 在 数 
据 集 上 运行 FP-growth 算 法 。 将 下 面 的 代码 添加 到 fp6rowth .py 文件 中 。 


程序 清单 12-7 文本 解析 及 合成 代码 


def textParse(bigString ): 
urlsRemoved = re.sub('(http[s]?:[/][/]|www.)([a-z]|[A-zZ]|1[0-9]|[.]| 
[~])*','', bigstring) 
listofTokens = re.split(r'\W*', urlsRemoved) 
return [tok.lower() for tok in listofTokens if len(tok) > 2] 





def mineTweets(tweetArr, minSup=5): 
parsedList = [] 
for i in range(14): 
for j in range(100): 
parsedList.append(textParse(tweetArr[i][j].text)) 
initSet = createInitSet(parsedList) 
myFPtree, myHeaderTab = createTree(initSet, minSup) 
myFreqList = [] 
mineTree(myFPtree, myHeaderTab, minSup, set([]), myFreqList) 
return myFreqList 


上 述 程序 清单 中 的 第 一 个 函数 来 自 第 4 章 ， 此 外 这 里 添加 了 一 行 代 人 码 用 
于 去 除 URL。 这 里 通过 调用 正则 表达 式 模 块 来 移 除 任 何 URL。 程 序 清单 
12-7 中 的 男 一 个 函数 mineTweets( ) 为 每 个 推 文 调用 textParse。 最 

后 ，mineTweets() 函 数 将 12.2 节 中 用 过 的 命令 封装 到 一 起 ， 来 构建 FP 树 
并 对 其 进行 挖掘 。 最 后 返回 所 有 频繁 项 集 组 成 的 列表 。 


下 面 看 看 运行 的 效果 : 


>>> reload(fpGrowth ) 








<module 'fpGrowth' from 'fpGrowth.py'> 

Let’s look for sets that occur more than 20 times: 

>>> listofTerms = fpGrowth.mineTweets(lotsOtweets, 20) 
How many sets occurred in 20 or more of the documents? 
>>> len(listofTerms) 

455 





我 写 这 段 代码 的 前 一 天 ， 一 家 以 RIMM 股 票 代 码 进行 交易 的 公司 开 了 一 
次 电话 会 议 ， 会 议 并 没有 令 投资 人 满意 。 该 股 开盘 价 相对 前 一 天 封 盘 价 
暴跌 229%6。 下 面 看 下 上 述 情况 是 否 在 推 文 中 体现 : 


>>> for t in listofTerms: 

a print t 

set([u'rimm', u'day']) 
set([u'rimm', u'earnings']) 
set([u'pounding', u'value']) 
set([u'pounding', u'overnight"']) 
set([u'pounding', u'drops']) 
set([u'pounding', u'shares']) 
set([u'pounding', u'are']) 











set([u'overnight']) 

set([u'drops', u'overnight"']) 

set([u'motion', u'drops', u'overnight']) 

set([u'motion', u'drops', u'overnight', u'value']) 
set([u'drops', u'overnight', u'research']) 

set([u'drops', u'overnight', u'value', u'research']) 
set([u'motion', u'drops', u'overnight', u'value', u'research']) 
set([u'motion', u'drops', u'overnight', u'research']) 
set([u'drops', u'overnight', u'value']) 


尝试 一 些 其 他 的 minsupport 值 或 者 搜索 词 也 是 变 有 趣 的 o 


我 们 还 记得 FP 树 的 构建 是 通过 每 次 应 用 一 个 实例 的 方式 来 完成 的 。 这 里 
假设 已 经 获得 了 所 有 数据 ， 所 以 刚才 是 直接 遍历 所 有 的 数据 来 构建 FP 树 
的 。 实 际 上 可 以 重 写 createTree() 函 数 ， 每 次 读 入 一 个 实例 ， 并 随 着 
Twitter 流 的 不 断 输入 而 不 断 增长 树 。FP-growth 算 法 还 有 一 个 map-reduce 
版 本 的 实现 ， 它 也 很 不 错 ， 可 以 扩展 到 多 台 机 器 上 运行 。Google 使 用 该 
算法 通过 授 历 大 量 文本 来 发 现 频 繁 共 现 词 ， 其 做 法 和 我 们 刚才 介绍 的 例 
子 非常 类 似 '。 


1. H. Li Y. Wang, D. Zhang, M. Zhang, E. Chang, “PFP: Parallel FP-Growth for Query Recommendation,” RecSys’08, Proceedings of the 2008 ACM Conference on Recommender Systems; 














http:Winfolab.stanford.edu/~echang/recsys08-69.pdf. 


12.5 示例 : 从 新 闻 网 站 点 击 流 中 挖掘 


好 了 ， 本 章 的 最 后 一 个 例子 很 酷 ， 而 你 有 可 能 正在 想 : “伙计 ， 这 个 算 
法 应 该 很 快 ， 因 为 只 有 1400 条 推 文 ! ”你 的 想法 是 正确 的 。 下 面 在 更 大 
的 文件 上 看 下 运行 效果 。 在 源 数据 集合 中 ， 有 一 个 kosarak.dat 文 件 ， 它 
包含 将 近 100 万 条 记录 !'!。 该 文件 中 的 每 一 行 包含 系 个 用 户 浏 览 过 的 新 闻 
报道 。 一 些 用 户 只 看 过 一 篇 报道 ， 而 有 些 用 户 看 过 2498 篇 报道 。 用 户 和 
报道 被 编码 成 整数 ， 所 以 查看 频繁 项 集 很 难得 到 更 多 的 东西 ， 但 是 该 数 
据 对 于 展示 FP-growth 算 法 的 速度 十 分 有 效 。 


1. Hungarian online news portal clickstream retrieved July 11, 2011; from Frequent Itemset Mining Dataset Repository, http://fimi.ua.ac.be/data/, donated by Ferenc Bodon. 


首先 ， 将 数据 集 导入 到 列表 : 


>>> parsedDat = [line.split() for line in open('kosarak.dat').readlines()] 











接 下 来 需要 对 初始 集合 格式 化 : 


>>> initSet = fpGrowth.createInitSet(parsedDat ) 


然后 构建 FP 树 ， 并 从 中 寻找 那些 至 少 被 10 万 人 浏览 过 的 新 闻 报 道 。 


>>> myFPtree，myHeaderTab = fpGrowth.createTree(initSet, 100000) 





在 我 这 人 台 简 陋 的 笔记 本 电脑 上 ， 构 建树 以 及 扫描 100 万 行 只 需要 几 秒 
钟 ， 这 展示 了 FP-growtp 算 法 的 强大 威力 。 下 面 需要 创建 一 个 空 列表 来 
保存 这 些 频繁 项 集 : 

>>> myFreqList = [] 


>>> fpGrowth.mineTree(myFPtree, myHeaderTab, 100000, set([]), myFreqList) 


人 


人 


>>> len(myFreqList) 
9 


总 共有 9 个 。 下 面 看 看 都 是 哪些 : 


>>> myFreqList 
[set(['1']), set(['1', '6']), set(['3']), set(['11', '3']), set(['11', '3','6']), 


可 以 使 用 其 他 设置 来 查看 运行 结果 ， 比 如 降低 置信 和 度 级 别 。 


12.6 本章 小 结 


FP-growth 算 法 是 一 种 用 于 发 现 数 据 集 中 频繁 模式 的 有 效 方法 。FP- 
growth 算 法 利用 Apriori 原 则 ， 执 行 更 快 。Apriori 算 法 产生 候选 项 集 ， 然 
后 扫描 数据 集 来 检查 它们 是 否 频繁 。 由 于 只 对 数据 集 扫描 两 次 ， 因 此 
FP-growth 算 法 执行 更 快 。 在 FP-growth 算 法 中 ， 数 据 集 存储 在 一 个 称 为 
FP 树 的 结构 中 。FP 树 构建 完成 后 ， 可 以 通过 查找 元 素 项 的 条 件 基 及 构 
建 条 件 FP 树 来 及 现 频 索 项 集 。 访 过程 不 断 以 更 多 元 素 作 为 条 件 重 复 进 
行 ， 直 到 FP 树 只 包含 一 个 元 素 为 止 。 


可 以 使 用 FP-growth 算 法 在 多 种 文本 文档 中 查找 频繁 单词 。Twitter 网 站 
为 开发 者 提供 了 大 量 的 API 来 使 用 他 们 的 服务 。 利 用 Python 模 块 python- 
Twitter 可 以 很 容易 访问 Twitter。 在 Twitter 源 上 对 某 个 话题 应 用 FP- 
growth 算 法 ， 可 以 得 到 一 些 有 关 该 话题 的 摘要 信息 。 频 繁 项 集 生 成 还 有 
其 他 的 一 些 应 用 ， 比 如 购物 交易 、 医 学 诊断 及 大 气 研究 等 。 


下 面 几 章 会 介绍 一 些 附属 工具 。 第 13 章 和 第 14 章 会 介绍 一 些 降 维 技术 ， 
使 用 这 些 技术 可 以 提炼 数据 中 的 重要 信息 并 且 移 除 噪声 。 第 14 章 会 介绍 
Map Reduce 技 术 ， 当 数据 量 超过 单 台 机 器 的 处 理 能 力 时 ， 将 会 需要 这 些 
技术 。 




















第 四 部 分 “其 他 工具 


本 书 第 四 部 分 即 是 最 后 一 部 分 ， 主 要 介绍 在 机 器 学 习 实践 时 常用 的 一 些 
其 他 工具 ， 它 们 可 以 应 用 于 前 三 部 分 的 算法 上 。 这 些 工 具 还 包括 了 可 以 
对 前 三 部 分 中 任 一 算法 的 输入 数据 进行 预 处 理 的 降 维 技术 。 这 一 部 分 还 
包括 了 在 上 干 台 机 器 上 分 配 作业 的 Map Reduce 技 术 。 


降 维 的 目标 就 是 对 输入 的 数目 进行 削减 ， 由 此 剔除 数据 中 的 噪声 并 提高 
机 器 学 习 方法 的 性 能 。 第 13 章 将 介绍 按照 数据 方差 最 大 方向 调整 数据 的 
主 成 分 分 析 降 维 方法 。 第 14 章 解释 奇异 值 分 解 ， 它 是 矩阵 分 解 技术 中 的 
一 种 ， 通 过 对 原始 数据 的 逼近 来 达到 降 维 的 目的 。 


第 15 章 是 本 书 的 最 后 一 章 ， 主 要 讨论 了 在 大 数据 下 的 机 器 学 习 。 大 数据 
(big data) 指 的 就 是 数据 集 很 大 以 至 于 内 存 不 足以 将 其 存放 。 如 果 数 据 
不 能 在 内 存 中 存放 ， 那 么 在 内 存 和 磁盘 之 间 传 输 数据 时 就 会 痕 费 大 量 的 
时 间 。 为 了 避免 这 一 点 ， 我 们 就 可 以 将 整个 作业 进行 分 片 ， 这 样 就 可 以 
在 多 机 下 进行 并 行 处 理 。Map Reduce 就 是 实现 上 述 过 程 的 一 种 流行 的 方 
法 ， 它 将 作业 分 成 了 Map 任 务 和 Reduce 任 务 。 第 15 章 将 介绍 Python 中 
Map Reduce 实 现 的 一 些 常 用 工具 ， 同 时 也 介绍 了 将 机 器 学 习 转换 成 满足 
Map Reduce 编 程 范 式 的 方法 。 























第 13 章 ”利用 PCA 来 简化 数据 


本 章 内 容 


。 降 维 技术 
。 主 成 分 分 机 (PCA) 
。 对 半导体 数据 进行 降 维 处 理 


想象 这 样 一 种 场景 : 我 们 正 通过 电视 而 非 现 场 观看 体育 比赛 ， 在 电视 的 
纯 平 显示 器 上 有 一 个 球 。 显 示 器 大 概 包 含 了 100 万 像素 ， 而 球 则 可 能 是 
由 较 少 的 像素 组 成 的 ， 比 如 说 一 干 个 像素 。 在 大 部 分 体育 比赛 中 ， 我 们 
关注 的 是 给 定时 刻 球 的 位 置 。 人 的 大 脑 要 想 了 解 比赛 的 进展 ， 就 需要 了 
解 球 在 运动 场 中 的 位 置 。 对 于 人 来 说 ， 这 一 切 显 得 十 分 上 自然， 甚至 部 不 
需要 做 任何 思考 。 在 这 个 场景 当中 ， 人 们 实时 地 将 显示 器 上 的 百 万 像素 
转换 成 为 了 一 个 三 维 图 像 ， 该 图 像 就 给 出 了 运动 场 上 球 的 位 置 。 在 这 个 
过 程 中 ， 人 们 已 经 将 数据 从 一 百 万 维 降 至 了 三 维 。 


在 上 述 体育 比赛 的 例子 中 ， 人 们 面 对 的 原本 是 百 万 像素 的 数据 ， 但 是 只 
有 球 的 三 维 位 置 才 最 重要 ， 这 束 被 称 为 降 维 (dimensionality 

reduction) 。 刚 才 我 们 将 超 百 万 的 数据 值 降 到 了 只 有 三 个 相关 值 。 在 低 
维 下 ， 数 据 更 容易 进行 处 理 。 另 外 ， 其 相关 特征 可 能 在 数据 中 明确 地 显 
通常 而 言 ， 我 们 在 应 用 其 他 机 器 学 习 算 法 之 前 ， 必 须 先 识别 出 
其 相关 特征 。 


本 章 是 涉及 降 维 主题 的 两 音 中 的 第 一 章 。 在 降 维 中 ， 我 们 对 数据 进行 了 
预 处 理 。 之 后 ， 采 用 其 他 机 器 学 习 技术 对 其 进行 处 理 。 本 章 一 开始 对 降 
维 技术 进行 了 综述 ， 然 后 集中 介绍 一 种 应 用 非常 普 吉 的 称 为 主 成 分 分 析 
的 技术 。 最 后 ， 我 们 就 通过 一 个 数据 集 的 例子 来 展示 PCA 的 工作 过 程 。 
经 过 PCA 处 理 之 后 ， 该 数据 集 就 从 590 个 特征 降低 到 了 6 个 特征 。 























13.1 降 维 技术 


始终 贯穿 本 书 的 一 个 难题 就 是 对 数据 和 结果 的 展示 ， 这 和 古 因 为 这 本 书 只 
古 二 维 的 ， 而 在 通 第 的 情况 下 我 们 的 数据 不 是 如 此 。 有 时 我 们 会 显示 三 
维 图 像 或 者 只 显示 其 相关 特征 ， 但 是 数据 往往 拥有 超出 显示 能 力 的 更 多 
特征 。 数 据 显 示 并 非 大 规模 特征 下 的 唯一 难题 ， 对 数据 进行 简化 还 有 如 
下 一 系列 的 原因 : 





。 使 得 数据 集 更 易 使 用 ; 

。 降低 很 多 算法 的 计算 开销 ; 
号 去 除 噪声 ; 

。 使 得 结果 易 懂 。 


在 已 标注 与 未 标注 的 数据 上 都 有 降 维 技术 。 这 里 我 们 将 主要 关注 未 标注 
数据 上 的 降 维 技术 ， 该 技术 同时 也 可 以 应 用 于 已 标注 的 数据 。 


第 一 种 降 维 的 方法 称 之 为 主 成 分 分 析 (Principal Component Analysis， 
PCA) 。 在 PCA 中 ， 数 据 从 原来 的 坐标 系 转换 到 了 新 的 坐标 系 ， 新 坐标 
系 的 选择 是 由 数据 本 喘 决 定 的。 第 一 个 新 坐标 轴 选 择 的 是 原始 数据 中 方 
差 最 大 的 方向 ， 第 二 个 新 坐标 轴 的 选择 和 第 一 个 坐标 轴 正 交 且 具有 最 大 
方差 的 方向 。 该 过 程 一 直 重 复 ， 重 复 次 数 为 原始 数据 中 特征 的 数目 。 我 
们 会 发 现 ， 大 部 分 方差 都 包含 在 最 前 面 的 几 个 新 坐标 轴 中 。 因 此 ， 我 们 
可 以 忽略 余下 的 坐标 轴 ， 即 对 数据 进行 了 降 维 处 理 。 在 13.2 市 我 们 将 会 
对 PCA 的 细节 进行 深入 介绍 。 


另外 一 种 降 维 技术 是 因子 分 析 (Factor Analysis) 。 在 因子 分 析 中 ， 我 
们 假设 在 观察 数据 的 生成 中 有 一 些 观 察 不 到 的 隐 变 量 (atent 

variable) 。 假 设 观察 数据 是 这 些 隐 变 量 和 某 些 噪声 的 线性 组 合 。 那 么 

隐 变 量 的 数据 可 能 比 观 察 数 据 的 数目 少 ， 也 惑 是 说 通过 找到 隐 变 量 束 可 
人 


还 有 一 种 降 维 技术 就 是 独立 成 分 分 析 〈Independent Component 
Analysis，ICA) 。ICA 假 设 数 据 是 从 N 个 数据 源 生 成 的 ， 这 一 点 和 因子 
分 析 有 些 类 似 。 假 设 数据 为 多 个 数据 源 的 混合 观察 结果 ， 这 些 数据 源 之 














间 在 统计 上 是 相互 独立 的 ， 而 在 PCA 中 只 假设 数据 是 不 相关 的 。 同 因子 
分 析 一 样 ， 如 果 数 据 源 的 数目 少 于 观察 数据 的 数目 ， 则 可 以 实现 降 维 过 


程 。 


在 上 述 3 种 降 维 技术 中 ，PCA 的 应 用 目前 最 为 广泛 ， 因 此 本 章 主要 关注 
PCA。 在 下 一 节 中 ， 我 们 将 会 对 PCA 进 行 介绍 ， 然 后 再 通过 一 段 Python 
代码 来 运行 PCA。 


13.2 PCA 
主 成 分 分 析 


优点 : 降低 数据 的 复杂 性 ， 识 别 最 重要 的 多 个 特征 。 
缺点 : 不 一 定 需要 ， 且 可 能 损失 有 用 信息 。 
适用 数据 类 型 : 数值 型 数据 。 


首先 我 们 讨论 PCA 背 后 的 一 些 理论 知识 ， 然 后 介绍 如 何 通 过 Python 的 
NumPy 来 实现 PCA。 


13.2.1 移动 坐标 轴 


考虑 一 下 图 13-1 中 的 大 量 数 据点 。 如 果 要 求 我 们 画 出 一 条 直线 ， 这 条 线 
要 尺 可 能 窗 冀 这 些 点 ， 那 么 最 长 的 线 可 能 古 哪 条 ? 我 做 过 多 次 尝试 。 在 
图 13-1 中 ，3 条 直线 中 B 最 长 。 在 PCA 中 ， 我 们 对 数据 的 坐标 进行 了 旋 

转 ， 该 旋转 的 过 程 取 决 于 数据 的 本 号 。 第 一 条 坐标 轴 旋 转 到 徐 冀 数据 的 
CS 即 儿 中 的 直线 B。 数 据 的 最 大 方 兰 给 出 了 数据 的 最 重要 


在 选择 了 复 盖 数据 最 大 差异 性 的 坐标 轴 之 后 ， 我 们 选择 了 第 二 条 坐标 
轴 。 假 如 访 坐 标 轴 与 第 一 条 坐标 轴 垂 直 ， 它 就 是 敌 阁 数据 次 大 差异 性 的 
坐标 轴 。 这 里 更 严谨 的 说 法 惑 是 正 交 (orthogonal) 。 当 然 ， 在 二 维 平 
面 下 ， 垂 直 和 正 交 是 一 回 事 。 在 图 13-1 中 ， 直 线 C 就 是 第 二 条 坐标 轴 。 
利用 PCA， 我 们 将 数据 坐标 轴 旋 转 至 数据 角度 上 的 那些 最 重要 的 方 癌 。 
































图 13-1 和 窗 盖 整个 数据 集 的 三 条 直线 ， 其 中 直线 B 最 长 ， 并 给 出 了 数据 
集中 差异 化 最 大 的 方向 


我 们 已 经 实现 了 坐标 轴 的 旋转 ， 接 下 来 开始 讨论 降 维 。 坐 标 轴 的 旋转 并 
没有 减少 数据 的 维度 。 考 虑 图 13-2， 其 中 包含 着 3 个 不 同 的 类 别 。 要 区 
分 这 3 个 类 别 ， 可 以 使 用 决策 树 。 我 们 还 记得 决策 树 每 次 都 是 基于 一 个 
特征 来 做 决策 的 。 我 们 会 发 现 ， 在 x 轴 上 可 以 找到 一 些 值 ， 这 些 值 能 
很 好 地 将 这 3 个 类 别 分 开 。 这 样 ， 我 们 残 可 能 得 到 一 些 规则 ， 比 如 妆 
(x<4) 时 ， 数 据 属 于 类 别 0。 如 宋 使 用 SVM 这 样 稍 微 复杂 一 点 的 分 类 天 ， 
我 们 就 会 得 到 更 好 的 分 类 面 和 分 类 规则 ， 比 如 当 (we*x + wl*y + b) > 9 
时 ， 数 据 也 属于 类 别 0。SVM 可 能 比 决策 树 得 到 更 好 的 分 类 间隔 ， 但 是 
分 类 超 平 面 却 很 难 解释 。 


通过 PCA 进 行 降 维 处 理 ， 我 们 就 可 以 同时 获得 SVM 和 决 集 树 的 优点 : 一 
方面 ， 得 到 了 和 决策 树 一 样 简 单 的 分 类 器 ， 同 时 分 类 间隔 和 SVM 一 样 
好 。 考 岁 图 13-2 中 下 面 的 图 ， 其 中 的 数据 来 自 于 上 面 的 图 并 经 PCA 转 换 
之 后 绘制 而 成 的 。 如 果 仪 使 用 原始 数据 ， 那 么 这 里 的 间隔 会 比 决 集 树 的 
间隔 更 大 。 另 外 ， 由 于 只 需要 考虑 一 维 信 息 ， 因 此 数据 就 可 以 通过 比 














SVM 简单 得 多 的 很 容易 采用 的 规则 进行 区 分 。 





图 13-2 ”二 维 空间 的 3 个 类 别 。 当 在 该 数据 集 上 应 用 PCA 时 ， 就 可 以 去 
掉 一 维 ， 从 而 使 得 该 分 类 问题 变 得 更 容易 处 理 


在 图 13-2 中 ， 我 们 只 需要 一 维 信息 即 可 ， 因 为 妨 一 维 信息 只 是 对 分 类 缺 
乏 页 献 的 噪声 数据 。 在 二 维 平面 下 ， 这 一 点 看 上 去 微不足道 ， 但 是 如 果 
在 高 维 空间 下 则 意义 重大 。 


我 们 已 经 对 PCA 的 基本 过 程 做 出 了 简单 的 阐述 ， 接 下 来 就 可 以 通过 代码 
来 实现 PCA 过 程 。 前 面 我 曾 提 到 的 第 一 个 主 成 分 就 是 从 数据 兰 卉 性 最 大 
〈 即 方 兰 最 大 ) 的 方 问 提取 出 来 的 ， 第 二 个 主 成 分 则 来 目 于 数据 过 异性 
次 大 的 方 回 ， 并 且 该 方向 与 第 一 个 主 成 分 方 回 正 交 。 通 过 数据 集 的 协 方 
兰 矩 阵 及 其 特征 值 分 林 ， 我 们 束 可 以 求 得 这 些 主 成 分 的 值 。 























一 旦 得 到 了 协 方 差 矩 阵 的 特征 同 量 ， 我 们 就 可 以 保留 最 大 的 N 个 值 。 这 
些 特征 向 量 也 给 出 了 N 个 最 重要 特征 的 真实 结构 。 我 们 可 以 通过 将 数据 
乘 上 这 NN 个 特征 向 量 而 将 它 转换 到 新 的 空间 。 


特征 值 分 析 


特征 值 分 析 是 线性 代数 中 的 一 个 领域 ， 它 能 够 通过 数据 的 一 般 格式 
来 揭示 数据 的 “真实 ”结构 ， 即 我 们 第 说 的 特征 向 量 和 特征 值 。 在 等 
式 Av = Av 中 ,Vv 是 特征 向 量 ， 入 是 特征 值 。 特 征 值 都 是 简单 的 标量 
值 ， 因 此 Av = 和 v 代 表 的 是 : 如 果 特 征 癌 量 v 被 茶 个 矩阵 A 左 乘 ， 那 
么 它 就 等 于 某 个 标量 》 乘 以 v。 笠 运 的 是 ，NumPy 中 有 寻找 特征 癌 量 
和 特征 值 的 模块 linalg， 它 有 eig() 方 法 ， 该 方法 用 于 求解 特征 问 
量 和 特征 值 。 


13.2.2 ”在 NumPy 中 实现 PCA 
将 数据 转换 成 前 N 个 主 成 分 的 伪 码 大 致 如 下 : 


去 除 平均 值 
计算 协 方差 矩阵 
计算 协 方差 矩阵 的 特征 值 和 特征 向 量 
将 特征 值 从 大 到 小 排序 
保留 最 上 面 的 N 个 特征 向 量 
将 数据 转换 到 上 述 N 个 特征 向 量 构建 的 新 空间 中 










































































建立 一 个 名 为 pca.py 的 文件 并 将 下 列 代 码 加 入 用 于 计算 PCA。 
程序 清单 13-1 PCA 算 法 
from numpy import * 


def loadDataSet(fileName, delim="'\t"): 
fr = open(fileName) 
stringArr = [line.strip().split(delim) for line in fr.readlines()] 
datArr = [map(float,]1line) for line in stringArr] 
return mat(datArr) 


def pca(dataMat, topNfeat=9999999): 
meanVals = mean(dataMat, axis=0) 
#@ 去 平均 值 
meanRemoved = dataMat - meanVals 
covMat = cov(meanRemoved, rowvar=0) 
eigVals,eigVects = linalg.eig(mat(covMat)) 
eigValIind = argsort(eigVals) 
# 人 @ 从 小 到 大 对 N 个 值 排序 
eigValInd = eigValInd[:-(topNfeat+1):-1] 




















redEigVects = eigVects[:,eigValInd] 

#@@ 将 数据 转换 到 新 空间 

lowDDataMat = meanRemoved * redEigVects 

reconMat = (lowDDataMat * redEigVects.T) + meanVals 
return lowDDataMat, reconMat 








程序 清单 13-1 中 的 代码 包含 了 通常 的 NumPy 守 入 和 1loadpataset() 函 数 。 
这 里 的 loadpataset() 函 数 和 前 面 章节 中 的 版 本 有 所 不 同 ， 因 为 这 里 使 
用 了 两 个 list comprehension 来 构建 窍 阵 。 


pca( ) 了 水 数 有 两 个 参数 : 第 一 个 参数 是 用 于 进行 PCA 操 作 的 数据 集 ， 第 
二 个 参数 topNfeat 则 是 一 个 可 选 参数 ， 即 应 用 的 N 个 特征 。 如 果 不 指定 
topNfeat 的 值 ， 那 么 函数 就 会 返回 前 9 999 999 个 特征 ， 或 者 原始 数据 中 
全 部 的 特征 。 


首先 计算 并 减 去 原始 数据 集 的 平均 值 @@。 然后， 计算 协 方差 窍 阵 及 其 特 
征 值 ， 接 着 利用 argsort( ) 沙 数 对 特征 值 进行 从 小 到 大 的 排序 。 根 据 特 
征 值 排序 结果 的 逆序 就 可 以 得 到 topNfeat 个 最 大 的 特征 问 量 信 。 这 些 特 
征 回 量 将 构成 后 面 对 数 据 进行 转换 的 矩阵 ， 该 官 阵 则 利用 N 个 特征 将 原 
始 数据 转换 到 新 空间 中 个 。 最 后 ， 原 始 数据 和 被 重 构 后 返回 用 于 调试 ， 同 
时 降 维 之 后 的 数据 集 也 被 返回 了 。 


一 切 都 看 上 去 不 错 ， 是 不 是 ? 在 进入 规模 更 大 的 例子 之 前 ， 我 们 先 看 看 
上 面 代码 的 运行 效果 以 确保 其 结果 正确 无 误 。 


>>> import pca 











我 们 在 testset ,txt 文件 中 加 入 一 个 由 1000 个 数据 点 组 成 的 数据 集 ， 并 
通过 如 下 命令 将 该 数据 集 调 入 内 存 : 


>>> dataMat = pca,JoadDataSet( 'testSet ,txt ') 


于 是， 我 们 就 可 以 在 该 数据 集 上 进行 PCA 操 作 : 


>>> lowDMat, reconMat = pca.pca(dataMat, 1) 


lowpMat 包 含 了 降 维 之 后 的 矩阵 ， 这 里 是 个 一 维和 矩阵 ， 我 们 通过 如 下 命 
令 进 行 检查 : 


>>> Shape(1LowDMat ) 
(1000, 1) 


我 们 可 以 通过 如 下 命令 将 降 维 后 的 数据 和 原始 数据 一 起 绘制 出 来 : 


>>> import matplotlib 

>>>import matplotlib.pyplot as pilt 

fig = plt.figure() 

ax = fig.add_subplot(111) 

>>> ax.scatter(dataMat[:,0].flatten().A[0], dataMat[:,1].flatten().A[0],marker="'^ 
<matplotlib.collections.PathCollection object at Ox029B5C50> 

>>> ax.scatter(reconMat[:,0].flatten().A[0], reconMat[:,1].flatten().A[90],marker= 
<matplotlib.collections.PathCollection object at Ox0372A210>plt.show() 


我 们 应 该 会 看 到 和 图 13-3 类 似 的 结果 。 使 用 如 下 命令 来 丛 换 原来 的 PCA 
调用 ， 并 重复 上 述 过 程 : 


>>> lowDMat, reconMat = pca.pca(dataMat, 2) 


既然 没有 剔除 任何 特征 ， 那 么 重 构 之 后 的 数据 会 和 原始 的 数据 重合 。 
们 也 会 看 到 和 图 13-3 类 似 的 结果 (不 包含 图 13-3 中 的 直线 〉。 
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图 13-3 ”原始 数据 集 ( 三 角形 点 表示 〉 及 第 一 主 成 分 〈 圆 形 点 表示 ) 


13.3 示例: 利用 PCA 对 半导体 制造 数据 
降 维 


半导体 是 在 一 些 极 为 先进 的 工厂 中 制造 出 来 的 。 工 厂 或 制造 设备 不 仅 需 
要 花费 上 亿美 元 ， 而 且 还 需要 大 量 的 工人 。 制 造 设备 仅 能 在 儿 年 内 保持 
其 先进 性 ， 随 后 就 必须 更 换 了 。 单 个 集成 电路 的 加 工时 间 会 超过 一 个 

月 。 在 设备 生命 期 有 限 ， 人 花费 义 极 其 巨大 的 情况 下 ， 制 造 过 程 中 的 每 一 
秒 钟 都 价值 巨大 。 如 果 制 造 过 程 中 存在 政 交 ， 我 们 就 必须 尽早 发 现 ， 从 
而 确保 宝贵 的 时 间 不 会 花费 在 缺陷 产品 的 生产 上 。 


一 些 工程 上 的 通用 解决 方案 是 通过 早期 测试 和 频繁 测试 来 及 现 有 缺 陷 的 
产品 ， 但 仍然 有 一 些 存在 瑕 意 的 产品 通过 了 测试 。 如 果 机 器 学 习 技 术 能 
够 用 于 进一步 减少 错误 ， 那 么 它 就 会 为 制造 商 节 省 大 量 的 资金 。 


接 下 来 我 们 将 考察 面 同 上 述 任务 中 的 数据 集 ， 而 它 也 比 前 面 使 用 的 数据 
集 更 大 ， 并 且 包 含 了 许多 特征 。 有 基体 地 讲 ， 它 拥有 590 个 特征 :。 我 们 看 
看 能 否 对 这 些 特征 进行 降 维 处 理 。 读 者 也 可 以 通过 
http://archive.ics.uci.edu/ml/machine-learning-databases/secom/ 得 到 该 数据 
集 。 











1 SECOM Data Set retrieved from the UCI Machine Learning Repository: http://archive.ics.uci.e 


该 数据 包含 很 多 的 缺失 值 。 这 些 人 缺失 值 是 以 NaN (Not a Number 的 纵 
写 ) 标识 的 。 对 于 这 些 缺 失 值 ， 我 们 有 一 些 处 理 办 法 (参考 第 5 章 ) 。 
在 590 个 特征 下 ， 几 乎 所 有 样本 都 有 NaN， 因 此 去 除 不 完整 的 样本 不 太 
现实 。 尽 管 我 们 可 以 将 所 有 的 NaN 蔡 换 成 0， 但 是 由 于 并 不 知道 这 些 值 
的 意义 ， 所 以 这 样 做 是 个 下 策 。 如 果 它 们 是 开 氏 温度 ， 那 么 将 它们 置 成 
0 这 种 处 理 策 略 就 太 差 劲 了 。 下 面 我 们 用 平均 值 来 代替 缺失 值 ， 平 均值 
根据 那些 非 NaN 得 到 。 


将 下 列 代码 添加 到 pca.py 文 件 中 。 
程序 清单 13-2 ”将 NaN 蔡 换 成 平均 值 的 函数 


def replaceNanwithMean( ) : 
datMat = loadDataSet('secom.data', ' ') 
numFeat = shape(datMat)[1] 
for i in range(numFeat ) : 








meanVal = mean(datMat[nonzero(~isnan(datMat[:,i].A))[0],i]) 
#@ 计算 所 有 非 NaN 的 平均 值 
datMat [nonzero(isnan(datMat[:,i].A))[0],i] = meanVal 

#@ 将 所 有 NaN 置 为 平均 值 


return datMat 


过 



































上 述 代码 首先 打开 了 数据 集 并 计算 出 了 其 特征 的 数目 ， 然 后 再 在 所 有 的 
特征 上 进行 循环 。 对 于 每 个 特征 ， 首 先 计算 出 那些 非 NaN 值 的 平均 值 
@。 人 然后 ， 将 所 有 NaN 替 换 为 该 平均 值 @。 


我 们 已 经 去 除了 所 有 NaN， 接 下 来 考虑 在 该 数据 集 上 应 用 PCA。 首 先 确 
认 所 需 特征 和 可 以 去 除 特 征 的 数目 。PCA 会 给 出 数据 中 所 包含 的 信息 

量 。 需 要 特别 强调 的 是 ， 数 据 (data) 和 信息 (information) 之 间 具 有 
巨大 的 差别 。 数 据 指 的 是 接受 的 原始 材料 ， 其 中 可 能 包含 噪声 和 不 相关 
言 轧 。 信 息 是 指数 据 中 的 相关 部 分 。 这 些 并 非 只 是 抽象 概念 ， 我 们 还 可 
以 定量 地 计算 数据 中 所 包含 的 信息 并 决定 保留 的 比例 。 


下 面 看 看 该 如 何 实现 这 一 点 。 首 先 ， 利 用 程序 清单 13-2 中 的 代码 将 数据 
集中 所 有 的 NaN 蔡 换 成 平均 值 : 


dataMat = pca.replaceNanwithMean() 











接 下 来 从 pcal( ) 函 数 中 借用 一 些 代码 来 达到 我 们 的 目的 ， 之 所 以 借用 是 
0 


meanVals = mean(dataMat, axis=0) 
meanRemoved = dataMat - meanVals 





然后 计算 协 方差 矩阵 : 


covMat = cov(meanRemoved, rowvar=0) 


最 后 对 该 窍 阵 进行 特征 值 分 析 : 


eigVals,eigVects = linalg.eig(mat(covMat)) 





现在 ， 我 们 可 以 观察 一 下 特征 值 的 结 


>>> eigVals 
array([ 5.34151979e+07, 2.17466719e+07, 8.24837662e+06, 
2.07388086e+06, 1.31540439e+06, 4.67693557e+05, 
2 
1 


Dh 


.90863555e+05, 2.83668601ie+05, 2.37155830e+05, 
.08513836e+05, 1.96098849e+05, 1.86856549e+05, 


Dh 


.00000000e+00, 


0.00000000e+00, 0 0 .00000000e+00, 
0.00000000e+00, ©0.00000000e+00, ©.00000000e+00, 
0.00000000e+00, ©0.00000000e+00, 0.00000000e+00, 
0.00000000e+00, ©0.00000000e+00, 0.00000000e+00, 
0.00000000e+00, 0.00000000e+00]) 


我 们 会 看 到 一 大 堆 值 ， 但 是 其 中 的 什么 会 引起 我 们 的 注意 ? 我们 会 发 现 
其 中 很 多 值 都 是 0 吗 ? 实际 上 ， 其 中 有 超过 20% 的 特征 值 都 是 90。 这 就 意 
味 着 这 些 特征 都 是 其 他 特征 的 副本 ， 也 就 是 说 ， 它 们 可 以 通过 其 他 特征 
来 表示 ， 而 本 身 并 没有 提供 额外 的 信息 。 

接 下 来 ， 我 们 了 解 一 下 部 分 数值 的 数量 级 。 最 前 面 15 个 值 的 数量 级 大 于 
10， 实 际 上 那 以 后 的 值 都 变 得 非常 小 。 这 就 相当 于 告诉 我 们 只 有 部 分 重 
要 特征 ， 重 要 特征 的 数目 也 很 快 就 会 下 降 。 

最 后 ， 我 们 可 能 会 注意 到 有 一 些小 的 负 值 ， 它 们 主要 源 自 数值 误差 应 该 
四 舍 五 入 成 0。 


在 图 13-4 中 已 经 给 出 了 总 方 兰 的 百分比 ， 我 们 发 现 ， 在 开始 几 个 主 成 分 
之 后 ， 方 差 就 会 迅速 下 降 。 





方差 的 百分比 








图 13-4 前 20 个 主 成 分 占 总 方差 的 百分比 。 可 以 看 出 ， 大 部 分 方差 都 
包含 在 前 面 的 几 个 主 成 分 中 ， 人 舍弃 后 面 的 主 成 分 并 不 会 损失 太 多 的 信 
晨 。 如 果 保 留 前 6 个 主 成 分 ， 则 数据 集 可 以 从 590 个 特征 约 简 成 6 个 特 
征 ， 大 概 实现 了 100:1 的 压缩 


表 13-1 给 出 了 这 些 主 成 分 所 对 应 的 方差 百分比 和 累积 方差 百分比 。 浏 

览 * 累 积 方 兰 百分比 〈%) ”这 一 列 就 会 注意 到 ， 前 六 个 主 成 分 就 宪 产 了 

数据 96.8% 的 方 过 ， 而 前 20 个 主 成 分 宪 新 了 99.3% 的 方 过 。 这 就 表明 了 ， 

如 果 保 留 前 6 个 而 去 除 后 584 个 主 成 分 ， 我 们 束 可 以 实现 大 概 100:1 的 压 

， 人 由 于 舍弃 了 噪声 的 主 成 分 ， 将 后 面 的 主 成 分 去 除 便 使 得 数 
1 


表 13-1 半导体 数据 中 前 7 个 主 成 分 所 占 的 方差 百分比 
主 成 分 方差 百分比 (%) ”累积 方差 百分比 (%) 











2 24.1 83.4 
六 9 92.5 
4 2.3 94.8 
5 1 96.3 


6 85 96.8 
20 0.08 99& 


于 是 ， 我 们 可 以 知道 在 数据 集 的 前 面 多 个 主 成 分 中 所 包含 的 信息 量 。 
们 可 以 尝试 不 同 的 截断 值 来 检验 它们 的 性 能 。 有 些 人 使 用 能 包含 90% 信 
恩 量 的 主 成 分 数量 ， 而 其 他 人 使 用 前 20 个 主 成 分 。 我 们 无 法 精确 知道 所 
需要 的 主 成 分 数目 ， 必 须 通 过 在 实验 中 取 不 同 的 值 来 确定 。 有 效 的 主 成 
分 数目 则 取决 于 数据 集 和 具体 应 用 。 


上 述 分 析 能 够 得 到 所 用 到 的 主 成 分 数目 ， 然 后 我 们 可 以 将 该 数目 输入 到 
PCA 算 法 中 ， 最 后 得 到 约 简 后 数据 就 可 以 在 分 类 器 中 使 用 了 。 

















13.4 本章 小 结 


降 维 技术 使 得 数据 变 得 更 易 使 用 ， 并 且 它 们 往往 能 够 去 除数 据 中 的 品 
声 ， 使 得 其 他 机 器 学 习 任务 更 加 精确 。 降 维 往往 作为 预 处 理 步骤 ， 在 数 
气 应 用 到 其 他 算法 之 前 清洗 数据 。 有 很 多 技术 可 以 用 于 数据 降 维 ， 在 这 
些 技术 中 ， 独 立成 分 分 析 、 因 子 分 析 和 主 成 分 分 析 比 较 流 行 ， 其 中 又 以 
主 成 分 分 析 应 用 了 最 广泛 。 


PCA 可 以 从 数据 中 识别 其 主要 特征 ， 它 是 通过 沿 痢 数据 最 大 方差 方向 旋 
转 坐 标 轴 来 实现 的 。 选 择 方差 最 大 的 方向 作为 第 一 条 坐标 轴 ， 后 续 坐 标 
轴 则 与 前 面 的 坐标 轴 正 区 。 协 方差 乍 阵 上 的 特征 值 分 析 可 以 用 一 系列 的 
正 交 坐标 轴 来 获取 。 

本 章 中 的 PCA 将 所 有 的 数据 集 都 调 入 了 内 存 ， 如 果 无 法 做 到 ， 束 需要 其 
他 的 方法 来 寻找 其 特征 值 。 如 有 果 使 用 在 线 PCA 分 析 的 方法 ， 你 可 以 参考 
一 篇 优秀 的 论文 "Incremental Eigenanalysis for Classification”。 下 一 章 要 
讨论 的 奇异 值 分 解 方法 也 可 以 用 于 特征 值 分 析 。 


1. P. Hall, D. Marshall, and R. Martin, “Incremental Eigenanalysis for Classification,” Department of Com- puterScience, Cardiff University, 1998 British Machine Vision Conference, vol. 1, 











286-95; [http:// citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.40.4801.](http:/W citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.40.4801.) 


第 14 章 ”利用 SVD 简 化 数据 


本 章 内 容 


。 SVD 算 阵 分 解 
。 推荐 引擎 
。 利 用 SVD 提 升 推荐 引擎 的 性 能 


餐馆 可 划分 为 很 多 类 别 ， 比 如 美式 、 中 式 、 日 式 、 牛 排 馆 、 素 食 店 ， 等 
等 。 你 是 否 想 过 这 些 类 别 够 用 吗 ? 或 许 人 们 喜欢 这 些 的 混合 类 别 ， 或 者 
类 似 中 式 素 食 店 那样 的 子 类 别 。 如 何 才 能 知道 到 确 有 多 少 类 餐馆 呢 ? 我 
们 也 许可 以 问 问 专 家 ? 但 是 倘 符 菜 个 专家 说 应 该 按照 调料 分 类 ， 而 万 一 
个 专家 则 认为 应 该 按照 配料 分 类 ， 那 该 怎么 办 昵 ? 喜 了 了 专家， 我 们 还 是 
从 数据 着 手 吧 。 我 们 可 以 对 记录 用 户 关 于 餐饮 观点 的 数据 进行 处 理 ， 并 
且 从 中 提取 出 其 背后 的 因素 。 


这 些 因素 可 能 会 与 餐馆 的 类 别 、 襄 饪 时 所 用 的 某 个 特定 配料 ， 或 其 他 任 
意 对 象 一 致 。 然 后 ， 我 们 就 可 以 利用 这 些 因 丢 来 估计 人 们 对 没有 去 过 的 
餐馆 的 看 法 。 


提取 这 些 信息 的 方法 称 为 奇异 值 分 解 (Singular Value Decomposition， 
SVD) 。 从 生物 信息 学 到 金融 学 等 在 内 的 很 多 应 用 中 ，SVD 都 是 提取 信 
尽 的 强大 工具 。 


本 章 将 介绍 SVD 的 概念 及 其 能 够 进行 数据 约 简 的 原因 。 然 后 ， 我 们 将 会 
介绍 基于 Python 的 SVD 实 现 以 及 将 数据 映射 到 低 维 空间 的 过 程 。 再 接 下 
来 ， 我 们 就 将 学 习 推 荐 引擎 的 概念 和 它们 的 实际 运行 过 程 。 为 了 提高 

SVD 的 精度 ， 我 们 将 会 把 其 应 用 到 推荐 系统 中 去 ， 该 推荐 系统 将 会 帮助 
1 
列子 -。 














14.1 SVD 的 应 用 
奇异 值 分 解 


优点 : 简化 数据 ， 去 除 噪声 ， 提 高 算法 的 结果 。 
缺点 : 数据 的 转换 可 能 难以 理解 。 
适用 数据 类 型 : 数值 型 数据 。 


利用 SVD 实 现 ， 我 们 能 够 用 小 得 多 的 数据 集 来 表示 原始 数据 集 。 这 样 

人 做， 实际 上 是 去 除了 噪声 和 元 余 信 息 。 当 我 们 试图 节省 空间 时 ， 去 除 品 
声 和 元 余 信 息 就 是 很 扫 高 的 目标 了 ， 但 是 在 这 里 我 们 则 是 从 数据 中 抽取 
信息 。 基 于 这 个 视角 ， 我 们 就 可 以 把 SVD 看 成 是 从 有 噪声 的 数据 中 抽取 
相关 特征 。 如 果 这 一 点 听 来 奇怪 ， 也 不 必 担 心 ， 我 们 后 面 会 给 出 知 干 

SVD 应 用 的 场景 和 方法 ， 解 释 它 的 威力 。 


首先 ， 我 们 会 介绍 SVD 是 如 何 通 过 隐 和 性 语义 索引 应 用 于 搜索 和 信息 检索 
领域 的 。 然 后 ， 我 们 再 介绍 SVD 在 推荐 系统 中 的 应 用 。 


14.1.1 隐 性 语义 索引 


SVD 的 历史 已 经 超过 上 上 百 个 年 头 ， 但 是 最 近 几 十 年 随 着 计算 机 的 使 用 ， 

我 们 发 现 了 其 更 多 的 使 用 价值 。 最 早 的 SVD 应 用 之 一 就 是 信息 检索 。 我 
们 称 利用 SVD 的 方法 为 隐 性 语义 索引 (Latent Semantic Indexing，LSI) 
或 隐 性 语义 分 析 (Latent Semantic Analysis，LSA) 。 


在 LSI 中 ， 一 个 矩阵 是 由 文档 和 词语 组 成 的 。 当 我 们 在 该 矩阵 上 应 用 
SVD 时 ， 就 会 构建 出 多 个 奇异 值 。 这 些 奇异 值 代表 了 文档 中 的 概念 或 主 
题 ， 这 一 特点 可 以 用 于 更 高 效 的 文档 搜索 。 在 词语 拼写 错误 时 ， 只 基于 
词语 存在 与 人 否 的 简单 搜索 方法 会 遇 到 问题 。 简 单 搜索 的 吃 一 个 问题 就 是 
同义词 的 使 用 。 这 就 是 说 ， 当 我 们 得 找 一 个 词 时 ， 其 同义词 所 在 的 文档 
可 能 并 不 会 匹配 上 。 如 果 我 们 从 上 干 篇 相似 的 文档 中 抽取 出 概念 ， 那 么 
同义词 就 会 映射 为 同一 概念 。 


14.1.2 推荐 系统 
SVD 的 另 一 个 应 用 就 是 推荐 系统 。 简 单 版 本 的 推荐 系统 能 够 计算 项 或 者 





























人 之 间 的 相似 度 。 更 先进 的 方法 则 移 利 用 SVD 从 数据 中 构建 一 个 主题 空 
间 ， 然 后 再 在 该 空间 下 计算 其 相似 度 。 考 虑 图 14-1 中 给 出 的 矩阵 ， 它 是 
由 餐馆 的 菜 和 品 荣 师 对 这 些 沫 的 意见 构成 的 。 品 沫 师 可 以 采用 1 到 5 之 间 
的 任意 一 个 整数 来 对 菜 评 级 。 如 果品 沫 师 没 有 答 过 茶道 沫 ， 则 评级 为 

0。 


日 
外 亲 寿 。 烤 让 蚀 区 寿 ” 烤 六 
色 鸡 司 站 多 外 鸡 司 牛 猪 
饮 排 饭 内 肉 饭 排 饭 肉 内 
WW 2 | 2 
Peter | 0 0 0 3 3 Peter | 0 0 0 3 3 
Tracy | 0 0 0 1 1 Tracy | 0 0 0 1 1 
Fan 1 1 1 0 0 Fan | 1 1 1 0 0 
Ming | 2 2 2 0 0 Ming | 2 2 2 0 0 
Fachi |5 5 5 0 0 Pachi |5 5 5 0 0 
Jocelyn | 1 1 1 0 0 Jocelyn | 1 1 1 0 0 


图 14-1 餐馆 的 菜 及 其 评级 的 数据 。 对 此 矩阵 进行 SVD 处 理 则 可 以 将 
数据 压缩 到 符 干 概念 中 去 。 在 右边 的 官 阵 当 中 ， 标 出 了 一 个 概念 。 


我 们 对 上 述 矩 阵 进 行 SVD 处 理 ， 会 得 到 两 个 奇异 值 ( 读 者 如 果 不 信 可 以 
自己 试 试 ) 。 因 此 ， 束 会 仿佛 有 两 个 概念 或 主题 与 此 数据 集 相 关联 。 我 
们 看 看 能 人 否 通 过 观察 图 中 的 0 来 找到 这 个 矩阵 的 具体 概念 。 观 察 一 下 石 
图 的 阴影 部 分 ， 看 起 来 Ed、Peter 和 Tracy 对 “ 烤 牛 肉 ” 和 “ 手 撕 猪肉 ”进行 
了 评级 ， 同 时 这 三 人 未 对 其 他 有 亲 评 级 。 烤 牛肉 和 手 撕 猪肉 都 是 美式 烧烤 
餐馆 才 有 的 菜 ， 其 他 则 在 日 式 餐 馆 才 有 。 


我 们 可 以 把 奇异 值 想象 成 一 个 新 空间 。 与 图 14-1 中 的 矩阵 给 出 的 五 维 或 
者 七 维 不 同 ， 我 们 最 终 的 矩阵 只 有 二 维 。 那 么 这 二 维 分 别 是 什么 呢 ? 它 
们 能 告诉 我 们 数据 的 什么 信息 ? 这 二 维 分 别 对 应 图 中 给 出 的 两 个 组 ， 碳 
图 中 己 经 标示 出 了 其 中 的 一 个 组 。 我 们 可 以 基于 每 个 组 的 共同 特征 来 命 
名 这 二 维 ， 比 如 我 们 得 到 的 美式 BBQ 和 日 式 食品 这 二 维 。 


如 何 才能 将 原始 数据 变换 到 上 述 新 空间 中 呢 ? 下 一 节 我 们 将 会 进一步 详 
细 地 介绍 SVD， 届 时 将 会 了 解 到 SVD 是 如 何 得 到 wu 和 Vr 两 个 矩阵 的 。Vv" 拢 

















阵 会 将 用 户 映 射 到 BBQ/ 日 式 食品 空间 去 。 类 似 地 ，u 和 矩阵 会 将 餐馆 的 末 
映射 到 BBQ/ 日 式 食品 空间 去 。 真 实 的 数据 通常 不 会 像 图 14-1 中 的 算 阵 那 
样 稠密 或 整齐 ， 这 里 如 此 只 是 为 了 便于 说 明 问 题 。 


推荐 引擎 中 可 能 会 有 噪声 数据 ， 比 如 某 个 人 对 某 些 菜 的 评级 就 可 能 存在 
噪声 ， 并 且 推 荐 系统 也 可 以 将 数据 抽取 为 这 些 基 本 主题 。 基 于 这 些 主 

题 ， 推 存 系统 就 能 取得 比 原 始 数据 更 好 的 推荐 效 末 。 在 2006 年 末 ， 电 影 
公司 Netflix 曾 经 举办 了 一 个 奖金 为 100 万 美元 的 大 赛 ， 这 笔 奖 金 会 颁 给 
2 
SVD'。 


下 一 节 将 介绍 SVD 的 一 些 缘 景 材 料 ， 接 着 给 出 利用 Python 的 NumPy 实 现 
SVD 的 过 程 。 然 后 ， 我 们 将 进一步 深入 讨论 推荐 引擎 。 当 对 推荐 引擎 有 
相当 的 了 解 之 后 ， 我 们 就 会 利用 SVD 构 建 一 个 推荐 系统 。 


SVD 是 矩阵 分 解 的 一 种 类 型 ， 而 矩阵 分 解 是 将 数据 矩阵 分 解 为 多 个 独立 
部 分 的 过 程 。 接 下 来 我 们 首先 介绍 矩阵 分 解 。 


1. Yehuda Koren, “The BellKor Solution to the Netflix Grand Prize,” August 2009; http://www.netflixprize.com/assets/GrandPrize2009_BPC_BellKor.pdf. 














14.2 ”矩阵 分 解 


在 很 多 情况 下 ， 数 据 中 的 一 小 段 携 带 了 数据 集中 的 大 部 分 信息 ， 其 他 信 
恩 则 要 么 是 噪声 ， 要 么 就 是 点 不 相关 的 信息 。 在 线性 代数 中 还 有 很 多 算 
阵 分 解 技术 。 竹 阵 分 解 可 以 将 原始 矩阵 表示 成 新 的 易于 处 理 的 形式 ， 这 
种 新 形式 是 两 个 或 多 个 矩阵 的 乘积 。 我 们 可 以 将 这 种 分 解 过 程 想象 成 代 
数 中 的 因子 分 解 。 如 何 将 12 分 解 成 两 个 数 的 乘积 ?(1,12)、(2,6) 和 (3,4) 
都 是 合理 的 答案 。 


不 同 的 矩阵 分 解 技 术 具 有 不 同 的 性 质 ， 其 中 有 些 更 适合 于 某 个 应 用 ， 有 
些 则 更 适合 于 其 他 应 用 。 最 常见 的 一 种 矩阵 分 解 拉 术 束 是 SVD。SVD 将 
原始 的 数据 集 和 矩阵 Data 分 解 成 三 个 抱 阵 U、z 和 ww。 如 果 原 始 和 矩阵 Data 是 
m 行 n 列 ， 那 么 u、z 和 V' 就 分 别 是 m 行 m 列 、m 行 np 列 和 n 行 n 列 。 为 了 清晰 
起 见 ， 上 述 过 程 可 以 写成 如 下 一 行 〈 下 标 为 矩阵 维 数 ) : 











< 下 和 7 工 
Data = [ 


“ MXm mxn nxn 


上 述 分 解 中 会 构建 出 一 个 矩阵 =， 该 矩阵 只 有 对 角 元 素 ， 其 他 元 素 均 为 
0。 男 一 个 惯例 就 是 ，z 的 对 角 元 素 是 从 大 到 小 排列 的 。 这 些 对 角 元 素 称 
为 奇异 值 (Singular ”Value)〉， 它 们 对 应 了 原始 数据 集 和 矩阵 bata 的 奇异 
值 。 回 想 上 一 章 的 PCA， 我 们 得 到 的 是 矩阵 的 特征 值 ， 它 们 告诉 我 们 数 
据 集中 的 重要 特征 。z 中 的 奇异 值 也 是 如 此 。 和 奇异 值 和 特征 值 是 有 关系 
的 。 这 里 的 奇异 值 就 是 和 矩阵 bata * Datar 特 征 值 的 平方 根 。 


前 面 提 到 过 ， 和 矩阵 2 只 有 从 大 到 小 排列 的 对 角 元 素 。 在 科学 和 工程 中 ， 
一 直 存 在 这 样 一 个 普 衣 事实 : 在 条 个 奇异 值 的 数目 〈(r 个 ) 之 后 ， 其 他 
的 奇异 值 都 置 为 0。 这 就 意味 独 数据 集中 仪 有 r 个 重要 特征 ， 而 其 余 特 征 
则 都 是 噪声 或 元 余 特 征 。 在 下 一 节 中 ， 我 们 将 看 到 一 个 可 靠 的 案例 。 


我 们 不 必 担 心 该 如 何 进行 矩阵 分 解 。 在 下 一 节 中 束 会 提 到 ， 在 NumPy 线 
性 代数 库 中 有 一 个 实现 SVD 的 方法 。 如 果 读 者 对 SVD 的 编程 实现 感 兴趣 
的 话 ， 请 阅读 Numerical Linear Algebra:。 








1.L. Trefethen and D. Bau IIL Numerical Linear Algebra (SIAM: Society for Industrial and Applied Mathematics, 1997). 


14.3 ”利用 Python 实现 SVD 


如 人 果 SVD 确 实 那 么 好 ， 那 么 该 如 何 实现 它 呢 ? SVD 实 现 了 相关 的 线性 代 
数 ， 但 这 并 不 在 本 书 的 讨论 范围 之 内 。 其 实 ， 有 很 多 软件 包 可 以 实现 

SVD。NumpPy 有 一 个 称 为 linalg 的 线性 代数 工具 箱 。 接 下 来 ， 我 们 了 解 
一 下 如 何 利用 该 工具 箱 实现 如 下 和 矩阵 的 SVD 处 理 : 


四 


要 在 Python 上 实现 该 矩阵 的 SVD 处 理 ， 请 键入 如 下 命令 : 


>>> from numpy import * 
>>> U,Sigma,VT=linalg.svd([[1, 1],[7, 7]]) 


接 下 来 束 可 以 在 如 下 多 个 算 阵 上 进行 尝试 : 


>>> U 

array([[-0.14142136, -0.98994949], 
[-0.98994949,0.14142136]]) 

>>> Sigma 

array([ 10.，0.]) 

>>> VT 

array([[-0.70710678, -0.70710678], 
[-0.70710678, 0.70710678]]) 


ee 矩阵 Sigma 以 行 癌 量 array([ 10 . ， 9.]) 返 回 ， 而 非 如 下 珑 


array([[ 19.，9.]， 
[ 9.，9.]]). 





由 于 和 窍 阵 除了 对 角 元 素 其 他 均 为 0， 因 此 这 种 仅 返 回 对 角 元 又 的 方式 能 
够 节省 空间 ， 这 就 是 由 NumPy 的 内 部 机 制 产 生 的 。 我 们 所 要 记 住 的 是 ， 
一 旦 看 到 sigma 就 要 知道 它 是 一 个 矩阵 。 好 了 ， 接 下 来 我 们 将 在 一 个 更 
大 的 数据 集 上 进行 更 多 的 分 解 。 


建立 一 个 新 文件 svdRec .py 并 加 入 如 下 代码 : 


def loadExData( ) : 
return[[1, 1, 


( 

1, 0, 了 
[2, 2, 2, 0, 909], 
[1, 1, 1, 0, 09], 
[5, 5, 5, 90, 0], 
[1, 1, 0, 2, 2], 
[0, 0, 90, 3, 3], 
[0, 0, 0, 1, 1]] 


接 下 来 我 们 对 该 窍 阵 进 行 SVD 分 解 。 在 保存 好 文件 svdRec.py 之 后 ， 我 
们 在 Python 提示 符 下 输入 : 

>>> Import svdRec 

>>> Data=SsvdRec,1LoadEXxData( ) 

>>> U,Sigma,VT=linalg.svd(Data) 

>>> Sigma 


array([ 9.72140007e+00, 5.29397912e+00， 6.84226362e-01,7.16251492e- 
16, 4.85169600e-32]) 


前 3 个 数值 比 其 他 的 值 大 了 很 多 (如 果 你 的 最 后 两 个 值 的 结果 与 这 里 的 
结 末梢 有 不 同 ， 也 不 必 担 心 。 它 们 太 小 了 ， 所 以 在 不 同 机 器 上 产生 的 结 
果 束 可 能 会 棚 有 人 不同， 但 是 数量 级 应 该 和 这 里 的 结果 差不多 ) 。 于 是 ， 
我 们 就 可 以 将 最 后 两 个 值 去 控 了 。 

接 下 来 ， 我 们 的 原始 数据 集 就 可 以 用 如 下 结果 来 近似 : 


T T 
Data,.,, 7 U > 人 3xn 


mx3 


图 14-2 束 是 上 述 近 似 计算 的 一 个 示意 图 。 
Vv! 


过 
Data U 


图 14-2 ”SVD 的 示 音 图 。 和 矩阵 bata 被 分 解 。 浅 灰色 区 域 是 原始 数据 ， 
深 灰 色 区 域 是 矩阵 近似 计算 仪 需要 的 数据 


我 们 试图 重 构 原始 矩阵。 首先 构建 一 个 3x3 的 矩阵 sig3: 


>>> Sig3=mat([[Sigma[©], 0, 0],[90, Sigma[1], 0], [9, 9, Sigma[2]]]) 


接 下 来 我 们 重 构 原始 矩阵 的 近似 和 矩阵。 由 于 sig3 仅 为 3x3 和 窃 阵 ， 我 们 只 
需 使 用 年 阵 U 的 前 3 列 和 VT 的 前 3 行 。 在 Python 中 实现 这 一 所 ， 输 入 合 
va 


>>> U[:,:3]*Sig3*VT[:3,:] 
array([[ 1., J sy 0., 0. |] 
B 2 207 Dy -0.,， -0.] 
[ss de Ls -0.,， -0.] 
E'S Boy Do 9,， 0，] 
[1 Is -0., 2%53 2.] 
[ 0.， 0., -0., Bi Be J] 
[ 9., 0., -0., 1., 1. ]]) 





我 们 是 如 何 知道 仅 需 保留 前 3 个 奇异 值 的 呢 ? 确定 要 保留 的 奇异 值 的 数 
目 有 很 多 启发 式 的 策略 ， 其 中 一 个 典型 的 做 法 就 是 保留 矩阵 中 90% 的 能 
量 信息 。 为 了 计算 总 能 量 信息 ， 我 们 将 所 有 的 奇异 值 求 其 平方 和 。 于 是 
可 以 将 奇异 值 的 平方 和 累加 到 总 值 的 90% 为 止 。 另 一 个 启发 式 策 略 就 
是 ， 当 矩阵 上 有 上 万 的 奇异 值 时 ， 那 么 就 保留 前 面 的 2000 或 3000 个 。 尽 
管 后 一 种 方法 不 太 优雅 ， 但 是 在 实际 中 更 容易 实施 。 之 所 以 说 它 不 够 优 
雅 ， 就 是 因为 在 任何 数据 集 上 都 不 能 保证 前 3000 个 奇异 值 就 能 够 包含 
90% 的 能 量 信息 。 但 在 通常 情况 下 ， 使 用 者 往往 都 对 数据 有 足够 的 了 
解 ， 从 而 就 能 够 做 出 类 似 的 假设 了 。 


现在 我 们 已 经 通过 三 个 矩阵 对 原始 矩阵 进行 了 近似 。 我 们 可 以 用 一 个 小 
很 多 的 矩阵 来 表示 一 个 大 矩阵 。 有 很 多 应 用 可 以 通过 SVD 来 提升 性 能 。 
下 面 我 们 将 讨论 一 个 比较 流行 的 SVD 应 用 的 例子 一 一 推荐 引擎 。 




















14.4 基于 协同 过 小 的 推荐 引擎 


近 十 年 来 ， 推 荐 引擎 对 因特网 用 户 而 言 已 经 不 是 什么 新 鲜 事 物 了 。 
Amazon 会 根据 顾客 的 购买 历史 同 他 们 推荐 物品 ，Netflix 会 同 其 用 户 推 
看 电影 ， 新 闻 网 站 会 对 用 户 推荐 新 闻 报 道 ， 这 样 的 例 季 还 有 很 多 很 多 。 
当然 ， 有 很 多 方法 可 以 实现 推荐 功能 ， 这 里 我 们 只 使 用 一 种 称 为 协同 过 
滤 (collaborative filtering ) 的 方法 。 协 同 过 滤 是 通过 将 用 户 和 其 他 用 户 
的 数据 进行 对 比 来 实现 推荐 的 。 


这 里 的 数据 是 从 概念 上 组 织 成 了 类 似 图 14-2 所 给 出 的 算 阵 形式 。 当 数据 
采用 这 种 方式 进行 组 织 时 ， 我 们 就 可 以 比较 用 户 或 物品 之 间 的 相似 度 

了 。 这 两 种 做 法 都 会 使 用 我 们 很 快 融 介 绍 到 的 相似 度 的 概念 。 当 知道 了 
两 个 用 户 或 两 个 物品 之 间 的 相似 度 ， 我 们 就 可 以 利用 己 有 的 数据 来 预测 
未 知 的 用 户 喜 好 。 例 如 ， 我 们 试图 对 茶 个 用 户 喜 欢 的 电影 进行 预测 ， 推 
存 引 擎 会 友 现 有 一 部 电影 该 用 户 还 没 看 过 。 然 后 ， 它 就 会 计算 该 电影 和 
用 户 看 过 的 电影 之 间 的 相似 度 ， 如 果 其 相似 度 很 高 ， 推 荐 算法 就 会 认为 
用 户 喜 欢 这 部 电影 。 


在 上 述 场景 下 ， 唯 一 所 需要 的 数学 方法 就 是 相似 度 的 计算 ， 这 并 不 是 很 
难 。 接 下 来 ， 我 们 首先 讨论 物品 之 间 的 相似 度 计算 ， 然 后 讨论 在 基于 物 
品 和 基于 用 户 的 相似 度 计算 之 间 的 折 中 。 最 后 ， 我 们 介绍 推荐 中 各 成 
9 度量 方法 。 


14.4.1 ”相似 度 计算 


我 们 希望 拥有 一 些 物 品 之 间 相 似 度 的 定量 方法 。 那 么 如 何 找 出 这 些 方法 
呢 ? 倘 知 我 们 面 对 的 是 食品 销售 网 站 ， 该 如 何 处 理 ? 或 许可 以 根据 食品 
的 配料 、 热 量 、 茶 个 有 页 调 类 型 的 定义 或 者 其 他 类 似 的 信息 进行 相似 度 的 
计算 。 现 在 ， 假 设 该 网 站 想 把 业务 拓展 到 餐具 行业 ， 那 么 会 用 热量 来 描 
述 一 个 又 子 吗 ? 问题 的 关键 残 在 于 用 于 描述 食品 的 属性 和 描述 餐具 的 属 
性 有 所 不 同 。 倘 知 我 们 使 用 另外 一 种 比较 物品 的 方法 会 怎样 呢 ? 我 们 不 
利用 专家 所 给 出 的 重要 属性 来 描述 物品 从 而 计算 它们 之 间 的 相似 度 ， 而 
是 利用 用 户 对 它们 的 意见 来 计算 相似 度 。 这 就 是 协同 过 滤 中 所 使 用 的 方 
法 。 它 并 不 关心 物品 的 插 述 属性 ， 而 是 严格 地 按照 许多 用 户 的 观点 来 计 
算 相似 度 。 图 14-3 给 出 了 由 一 些 用 户 及 其 对 前 面 给 出 的 部 分 菜 丰 的 评级 
言 轧 所 组 成 的 窍 阵 。 
































日 
式 手 
鳗 炸 寿 烤 括 
鱼 到 司 站 
饮 排 饮 网 内 
Jim | 2 0 0 4 4 
John | 5 5 5 3 3 
Sally | 2 4 起 1 2 


图 14-3 ”用 于 展示 相似 度 计算 的 简单 矩阵 


我 们 计算 一 下 手 撕 猪 肉 和 烤 牛 肉 之 间 的 相似 度 。 一 开始 我 们 使 用 欧 氏 距 
离 来 计算 。 手 撕 猪 肉 和 烤 牛 肉 的 欧 氏 距离 为 : 





(4-4)* +(3-3) +(2-1) =1 


而 手 撕 猪肉 和 鳗鱼 饭 的 欧 开 距离 为 : 





(412) (93 (2 2} =2.83 





在 该 数据 中 ， 由 于 手 撕 猪肉 和 烤 牛 肉 的 距离 小 于 手 撕 猪 肉 和 鳗鱼 饭 的 距 
离 ， 因 此 手 撕 猪 肉 与 烤 牛 肉 比 与 鳗鱼 饭 更 为 相似 。 我 们 希望 ， 相 似 度 值 
在 0 到 1 之 间 变 化 ， 并 且 物 品 对 越 相 似 ， 它 们 的 相似 度 值 也 就 越 大 。 我 们 
可 以 用 相似 度 =1(1+ 距 离 ) 这 样 的 算式 来 计算 相似 度 。 当 距离 为 0 时 ， 相 
似 度 为 1.0。 如 果 距 离 真 的 非常 大 时 ， 相 似 度 也 就 趋 近 于 0。 


第 二 种 计算 距离 的 方法 是 皮尔 逊 相关 系数 (Pearson correlation ) 。 我 们 
在 第 8 章 度量 回归 方程 的 精度 时 曾经 用 到 过 这 个 量 ， 它 度量 的 是 两 个 同 

量 之 则 的 相似 上 度 。 该 方法 相对 于 欧 氏 距离 的 一 个 优势 在 于 ， 它 对 用 户 评 
级 的 量 级 并 不 敏感 。 比 如 某 个 狂躁 者 对 所 有 物品 的 评分 都 是 5 分 ， 而 另 

一 个 忧郁 者 对 所 有 物品 的 评分 都 是 1 分 ， 皮 和 尔 逊 相关 系数 会 认为 这 两 个 

问 量 是 相等 的 。 在 NumPy 中 ， 皮 和 尔 逊 相关 系数 的 计算 是 由 函 

数 corrcoef() 进 行 的， 后 面 我 们 很 快 就 会 用 到 它 了 。 皮 尔 逊 相关 系数 的 
取 值 范围 从 -1 到 +1， 我 们 通过 6.5 + 0.5*corrcoef() 这 个 函数 计算 ， 并 
且 把 其 取 值 范围 归 一 化 到 0 到 1 之 间 。 

















另 一 个 常用 的 距离 计算 方法 就 是 余弦 相似 度 〈cosine similarity) ， 其 计 
算 的 是 两 个 回 量 夹 角 的 余弦 值 。 如 果 夹 角 为 90 度 ， 则 相似 度 为 0;”， 如 果 
两 个 同 量 的 方 回 相同 ， 则 相似 度 为 1.0。 同 皮尔 进 相关 系数 一 样 ， 余 弦 
相似 度 的 取 值 范围 也 在 -1 到 +1 之 间 ， 因 此 我 们 也 将 它 归 一 化 到 0 到 1 之 
我 们 采用 的 两 个 回 量 A 和 B 夹 角 的 余弦 相似 度 

: 定义 DF 下 : 





A 


B 
C0s0O=——— 
区 | 


其 中 , |||、| 引 表示 向 量 A、B 的 2 范 数 ， 你 可 以 定义 向 量 的 任 一 范 数 ， 
但 是 如 果 不 指定 范 数 阶 数 ， 则 都 假设 为 2 范 数 。 回 量 [4,2,2] 的 2 范 数 为 : 


V4 +3: +2 
同样 ，NumPy 的 线性 代数 工具 箱 中 提供 了 范 数 的 计算 方法 


linalg.norm( ) 。 


接 下 来 我 们 将 上 述 各 种 相似 度 的 计算 方法 写成 Python 中 的 函数 。 打 
开 svdRec.py 文 件 并 加 入 下 列 代 码 。 


程序 清单 14-1 相似 度 计算 


from numpy import * 
from numpy import linalg as la 


def ecludSim(inA,inB): 
return 1.0/(1.0 + la.norm(inA - inB)) 
def pearsSim(inA,inB): 
If len(inA) < 3 : return 1.0 
return 0.5+0.5*corrcoef(inA, inB, rowvar = 0)[90][1] 


def cosSim(inA,inB): 
num = float(inA.T*inB) 
denom = la.norm(inA)*1la.norm(inB) 
return 0.5+0.5*(num/denom) 


程序 中 的 3 个 函数 就 是 上 面 提 到 的 几 种 相似 度 的 计算 方法 。 为 了 便于 理 
解 ，NumPy 的 线性 代数 工具 箱 linalg 被 作为 la 导 和 入， 函数 中 假定 inA 和 inB 
都 是 列 向 量 。perassim( ) 函 数 会 检查 是 否 存在 3 个 或 更 多 的 点 。 如 果 不 








存在 ， 该 函数 返回 1.0， 这 是 因为 此 时 两 个 向 量 完全 相关 。 


下 面 我们 对 上 述 水 数 进行 尝试 。 在 保存 好 文件 svdRec .py 之 后 ， 在 Python 
提示 符 下 输入 如 下 命令 : 

>>> reload(svdRec) 

<module 'svdRec' from 'svdRec.pyc'> 

>>> myMat=mat (svdRec.1loadExData( )) 

>>> svdRec.ecludSim(myMat[:,0],myMat[:,4]) 

0.12973190755680383 


>>> svdRec.ecludSim(myMat[:,0],myMat[:,0]) 
1.0 


欧 氏 距离 看 上 去 还 行 ， 那 么 接 下 来 试 试 余弦 相似 度 : 


>>> svdRec.cosSim(myMat[:,0],myMat[:,4]) 
0.5 

>>> svdRec.cosSim(myMat[:,0],myMat[:,0]) 
1.0000000000000002 


余弦 相似 度 似乎 也 行 ， 就 再 试 试 挛 尔 逊 相关 系数 : 


>>> svdRec.pearsSim(myMat[:,0],myMat[:,4]) 
0.20596538173840329>>> svdRec.pearsSim(myMat[:,0],myMat[:,0]) 
1.0 


上 面 的 相似 度 计算 都 是 假设 数据 采用 了 列 向 量 方式 进行 表示 。 如 果 利用 

上 述 函 数 来 计算 两 个 行 癌 量 的 相似 度 就 会 遇 到 问题 〈 我 们 很 容易 对 上 述 

函数 进行 修改 以 计算 行 问 量 之 间 的 相似 度 ) 。 这 里 采用 列 同 量 的 表示 方 

人 后 面 我 们 会 阐述 其 
J 原因 。 


14.4.2 ”基于 物品 的 相似 度 还 古 基于 用 户 的 相似 度 ? 


我 们 计算 了 两 个 餐馆 菜 看 之 间 的 距离 ， 这 称 为 基于 物品 (item-based) 
的 相似 度 。 男 一 种 计算 用 户 距 离 的 方法 则 称 为 基于 用 户 (user-based) 
的 相似 度 。 回 到 图 14-3， 行 与 行 之 间 比 较 的 是 基于 用 户 的 相似 度 ， 列 与 
列 之 间 比 较 的 则 是 基于 物品 的 相似 度 。 到 底 使 用 哪 一 种 相似 度 呢 ?这 取 
决 于 用 户 或 物品 的 数目 。 基 于 物品 相似 度 计算 的 时 间 会 随 物 品 数量 的 增 
加 而 增加 ， 基 于 用 户 的 相似 度 计 算 的 时 间 则 会 随 用 户 数量 的 增加 而 增 
加 。 如 果 我 们 有 一 个 商店 ， 那 么 最 多 会 有 几 干 件 商 品 。 在 撰写 本 书 之 




















际 ， 最 大 的 商店 大 概 有 100 000 件 商品 。 而 在 Netflix 大 赛 中 ， 则 会 有 480 
000 个 用 户 和 17 ”700 部 电影 。 如 果 用 户 的 数目 很 多 ， 那 么 我 们 可 能 倾 疝 
于 使 用 基于 物品 相似 度 的 计算 方法 。 


对 于 大 部 分 产品 导 同 的 推荐 引擎 而 言 ， 用 户 的 数量 往往 大 于 物品 的 数 
量 ， 即 购买 商品 的 用 户 数 会 多 于 出 售 的 商品 种 类 。 


14.4.3 ”推荐 引擎 的 评价 


如 何 对 推荐 引擎 进行 评价 呢 ?” 此 时 ， 我 们 既 没 有 预测 的 目标 值 ， 也 没有 
用 户 来 调查 他 们 对 预测 的 满意 程度 。 这 里 我 们 就 可 以 采用 前 面 多 次 使 用 
的 交叉 测试 的 方法 。 具 体 的 做 法 就 是 ， 我 们 将 茶 些 已 知 的 评分 值 去 挥 ， 
然后 对 它们 进行 预测 ， 最 后 计算 预测 值 和 真实 值 之 间 的 差异 。 


通常 用 于 推荐 引 敬 评价 的 指标 是 称 为 最 小 均 方 根 误 拳 (Root Mean 
Squared ”Error，RMSE) 的 指标 ， 它 首先 计算 均 方 误差 的 平均 值 然 后 取 
其 平方 根 。 如 果 评 级 在 1 星 到 5 星 这 个 范围 内 ， 而 我 们 得 到 的 RMSE 为 
了 
级 。 








14.5 “示例 : 移 馆 荣 肴 推荐 引擎 


现在 我 们 就 开始 构建 一 个 推荐 引擎 ， 该 推荐 引擎 关注 的 是 餐馆 食物 的 推 
荐 。 假 设 一 个 人 在 家 决定 外 出 吃饭 ， 但 是 他 并 不 知道 该 到 哪儿 去 吃饭 ， 
该 点 什么 亲 。 我 们 这 个 推荐 系统 可 以 帮 他 做 到 这 两 点 。 


首先 我 们 构建 一 个 基本 的 推荐 引擎 ， 它 能 够 寻找 用 户 没有 尝 过 的 菜肴。 
然后 ， 通 过 SVD 来 减少 特征 空间 并 提高 推荐 的 效果 。 这 之 后 ， 将 程序 打 
包 并 通过 用 户 可 读 的 人 机 界面 提供 给 人 们 使 用 。 最 后 ， 我 们 介绍 在 构建 
推荐 系统 时 面临 的 一 些 问题 。 


14.5.1 推荐 未 演 过 的 沈 看 


推荐 系统 的 工作 过 程 是 : 给 定 一 个 用 户 ， 系 统 会 为 此 用 户 返 回 N 个 最 好 
的 推荐 业 。 为 了 实现 这 一 点 ， 则 需要 我 们 做 到 |: 


1. 寻找 用 户 没 有 评级 的 沫 着 ， 即 在 用 户 一 物品 矩阵 中 的 0 值 ; 

2. 在 用 户 没 有 评级 的 所 有 物品 中 ， 对 每 个 物品 预计 一 个 可 能 的 评级 分 
数 。 这 束 是 说 ， 我 们 认为 用 户 可 能 会 对 物品 的 打分 (这 就 是 相似 度 
计算 的 初衷 ) ; 

3. 对 这 些 物品 的 评分 从 高 到 低 进 行 排序 ， 返 回 前 N 个 物品 。 


好 了 ， 接 下 来 我 们 答 试 这 样 做 。 打 开 svdRec.py 文 件 并 加 入 下 列 程序 清 
单 中 的 代码 。 


程序 清单 14-2 ”基于 物品 相似 上 度 的 推荐 引擎 


def standEst(dataMat, user, simMeas, item): 

n = shape(dataMat)[1] 

simTotal = 0.0; ratSimTotal = 0.0 

for j in range(n): 
userRating = dataMat[user,j] 
If userRating == 0: continue 
#@ 寻找 两 个 用 户 都 评级 的 物品 
overLap = nonzero(logical and(dataMat[:,item].A>0, dataMat[:,j].A>0))[0] 
If len(overLap) == 0: similarity = 0 
else: similarity = simMeas(dataMat[overLap,item], dataMat[overLap,j]) 
#print 'the %d and %d similarity is: %f' % (item, j, similarity) 
simTotal += similarity 
ratSimTotal += similarity * userRating 

If simTotal == 0: return 0 




















else: return ratSimTotal/simTotal 


def recommend(dataMat, user, N=3, simMeas=cosSim, estMethod=standEst): 


#@ 寻找 未 评级 的 物品 





unratedItems = nonzero(dataMat[user,:].A==0)[1] 

If len(unratedIitems) == 0: return 'you rated everything， 

ItemScores = [] 

for item in unratedItems : 
estimatedScore = estMethod(dataMat, user, simMeas, item) 
itemSscores.append( (item, estimatedScore)) 

#@@ 寻找 前 N 个 未 评级 物品 

return sorted(itemScores, key=lambda jj: jj[1], reverse=True)[:N] 





上 述 程 序 包含 了 两 个 函数 。 第 一 个 函数 是 standEst()， 用 来 计算 在 给 定 
相似 度 计 算 方法 的 条 件 下 ， 用 户 对 物品 的 估计 评分 值 。 第 二 个 函数 

是 recommend()， 也 束 是 推荐 引擎 ， 它 会 调用 standEst() 函 数 。 我 们 先 讨 
论 standEst() 函 数 ， 然 后 讨论 recommend( ) 函数 。 


级 数 standEst() 的 参数 包括 数据 窍 阵 、 用 户 编号 、 物 品 编号 和 相似 度 计 
算 方法 。 假 设 这 里 的 数据 矩阵 为 图 14-1 和 图 14-2 的 形式 ， 即 行 对 应 用 
户 、 列 对 应 物品 。 那 么 ， 我 们 首先 会 得 到 数据 集中 的 物品 数目 ， 然 后 对 
两 个 后 面 用 于 计算 估计 评分 值 的 变量 进行 初始 人 化。 接着， 我们 志 历 行 中 
的 每 个 物品 。 如 果 东 个 物品 评分 值 为 0， 就 意味 着 用 户 没有 对 该 物品 评 
分 ， 跳 过 了 这 个 物品 。 该 循环 大 体 上 是 对 用 户 评 过 分 的 每 个 物品 进行 过 
历 ， 并 将 它 和 其 他 物品 进行 比较 。 变 量 overLap 给 出 的 是 两 个 物品 当中 
己 经 被 评分 的 那个 元 素 @。 如 果 两 者 没有 任何 重合 元 素 ， 则 相似 度 为 0 
且 中 止 本 次 循环 。 但 是 如 果 存 在 重合 的 物品 ， 则 基于 这 些 重 合 物 品 计 算 
相似 度 。 随 后 ， 相 似 度 会 不 断 素 加 ， 每 次 计算 时 还 考虑 相似 度 和 当前 用 
户 评分 的 乘积 。 最 后 ， 通 过 除 以 所 有 的 评分 总 和 ， 对 上 述 相似 度 评 分 的 
乘积 进行 归 一 化 。 这 就 可 以 使 得 最 后 的 评分 值 在 0 到 5 之 间 ， 而 这 些 评分 
值 则 用 于 对 预测 值 进行 排序 。 


函数 recommend() 产 生 了 最 高 的 N 个 推荐 结果 。 如 果 不 指 定 N 的 大 小 ， 则 
默认 值 为 3。 该 函数 另外 的 参数 还 包括 相似 度 计 算 方 法 和 估计 方法 。 我 
们 可 以 使 用 程序 清单 14-1 中 的 任意 一 种 相似 度 计 算 方法 。 此 时 我 们 能 采 
用 的 估计 方法 只 有 一 种 选择 ， 但 是 在 下 一 小 节 中 会 增加 另外 一 种 选择 。 
该 函数 的 第 一 件 事 就 是 对 给 定 的 用 户 建立 一 个 未 评分 的 物品 列表 @。 如 
果 不 存在 未 评分 物品 ， 那 么 就 退出 函数 ; 否则 ， 在 所 有 的 未 评分 物品 上 
进行 循环 。 对 每 个 未 评分 物品 ， 则 通过 调用 standEst() 来 产生 该 物品 的 
预测 得 分 。 该 物品 的 编号 和 估计 得 分 值 会 放 在 一 个 元 素 列 表 itemscores 
中 。 最 后 按照 估计 得 分 ， 对 该 列表 进行 排序 并 返回 全 。 该 列表 是 从 大 到 




















小 逆序 排列 的 ， 因 此 其 第 一 个 值 就 是 最 大 值 。 


接 下 来 看 看 它 的 实际 运行 效果 。 在 保存 svdRec.py 文 件 之 后 ， 在 Python 提 
示 符 下 输入 命令 : 


>>> reload(svdRec) 
<module 'svdRec' from 'svdRec.py'> 


下 面 ， 我 们 调 入 了 一 个 矩阵 实例 ， 可 以 对 本 革 前 面 给 出 的 矩阵 稍 加 修改 
后 加 以 使 用 。 首 先 ， 调 入 原始 矩阵 : 


>>> myMat=mat(SvdRec,1LoadEXData( ) ) 








该 矩阵 对 于 展示 SVD 的 作用 非常 好 ， 但 是 它 本 身 不 是 十 分 有 趣 ， 因 此 我 
们 要 对 其 中 的 一 些 值 进行 更 改 : 


>>> myMat [90,1]=myMat[0,0]=myMat[1,0]=myMat[2,0]=4 
>>> myMat[3,3]=2 


现在 得 到 的 矩阵 如 下 : 


>>> myMat 

matrix([[4, 4, 0, 2, 2], 
[4, 0, 909, 3, 3], 
[4, 909, 09, 1, 1], 
[1, 1, 1, 2, 909], 
[2, 2, 2, 0, 909], 
[1, 1, 1, 9, 9], 
[5, 5, 5, 0, 0]]) 


好 了 ， 现 在 我 们 已 经 可 以 做 些 推荐 了 了。 我们 先 答 试 一 下 默认 的 推荐 : 


>>> svdRec.recommend(myMat, 2) 
[(2, 2.5000000000000004)，(1, 2.0498713655614456)] 


这 表明 了 用 户 2〈 由 于 我 们 从 0 开始 计数 ， 因 此 这 对 应 了 窍 阵 的 第 3 行 ) 
对 物品 2 的 预测 评分 值 为 2.5， 对 物品 1 的 预测 评分 值 为 2.05。 下 面 我 们 就 
利用 其 他 的 相似 度 计 算 方 法 来 进行 推 存 : 


>>> svdRec.recommend(myMat, 2, simMeas=svdRec.ecludSim) 
[(2, 3.0), (1, 2.8266504712098603)] 


>>> svdRec.recommend(myMat, 2, simMeas=svdRec.pearsSim) 
[(2, 2.5), (1, 2.0)] 





我 们 可 以 对 多 个 用 户 进 行 尝试 ， 或 者 对 数据 集 做 些 修改 来 了 解 其 给 预测 
结果 带 来 的 变化 。 


这 个 例子 给 出 了 如 何 利用 基于 物品 相似 度 和 多 个 相似 度 计算 方法 来 进行 
推荐 的 过 程 ， 下 面 我 们 介绍 如 何 将 SVD 应 用 于 推荐 。 


14.5.2 ”利用 SVD 提 高 推荐 的 效果 


实际 的 数据 集会 比 我 们 用 于 展示 recommend( ) 逊 数 功 能 的 myMat 和 矩阵 稀 玉 C 
得 多 。 图 14-4 就 给 出 了 一 个 更 真实 的 矩阵 的 例子 。 
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Brent |0 0 0 0 0 0 5 0 0 5 0 
Kyle 4 0 4 0 0 0 0 0 0 0 5 
i et et 
Shaney 0 0 0 0 0 0 5 0 0 5 0 
Brendan | 0 $d 和 汉 I Bl 2 
Leanna | 1 1 2 1 1 2 1 0 4 5 0 


图 14-4 ”一 个 更 大 的 用 户 一 沫 看 矩阵 ， 其 中 有 很 多 物品 都 没有 评分 ， 
这 比 一 个 全 填充 的 矩阵 更 接近 真实 情况 


我 们 可 以 将 该 矩阵 输入 到 程序 中 去 ， 或 者 从 下 载 代码 中 复制 函 
| )。 下 面 我 们 计算 该 矩阵 的 SVD 来 了 解 其 到 底 需 要 多 少 
维特 征 。 


>>>from numpy import linalg as la 





>>> U,Sigma,VT=]la.svd(mat(svdRec.1loadExData2(,))) 

>>> Sigma 

array([ 1.38487021e+01, 1.15944583e+01, 1.10219767e+01, 
5.31737732e+00, 4.55477815e+00, 2.69935136e+00, 
1.53799905e+00, 6.46087828e-01, 4.45444850e-01, 
9.86019201e-02, 9.96558169e-17]) 


接 下 来 我 们 看 看 到 底 有 多 少 个 奇异 值 能 达到 总 能 量 的 90%。 首 先 ， 对 
sigma 中 的 值 求 平 方 : 


>>> Sig2=Sigma**2 


再 计算 一 下 总 能 量 ; 


>>> sum(Sig2) 
541.99999999999932 


再 计算 总 能 量 的 90%: 


>>> sum(Sig2)*0.9 
487.79999999999939 


然后 ， 计 算 前 两 个 元 素 所 包含 的 能 量 : 


>>> sum(Sig2[:2]) 
378.8295595113579 


该 值 低 于 总 能 量 的 90%， 于 是 计算 前 三 个 元 素 所 包含 的 能 量 : 


>>> sum(Sig2[:3]) 
500.50028912757909 





该 值 高 于 总 能 量 的 90%， 这 就 可 以 了 。 于 是 ， 我 们 可 以 将 一 个 11 维 的 矩 
阵 转 换 成 一 个 3 维 的 矩阵 。 下 面 对 转 换 后 的 三 维 空间 构造 出 一 个 相似 度 
计算 函数 。 我 们 利用 SVD 将 所 有 的 荣 看 映射 到 一 个 低 维 空间 中 去 。 在 低 
维 空间 下 ， 可 以 利用 前 面相 同 的 相似 度 计 算 方 法 来 进行 推荐 。 我 们 会 构 
造 出 一 个 类 似 于 程序 清单 14-2 中 的 standEst() 函 数 。 打 开 svdRec.py 文 件 
并 加 入 如 下 程序 清单 中 的 代码 。 





程序 清单 14-3 ”基于 SVD 的 评分 估计 


def svdEst(dataMat, user, simMeas, item): 
n = shape(dataMat)[1] 
SlimTotal = 0. 0; ratSimTotal = 0.0 
U,Sigma,VT = = 1a. svd(dataMat) 
#@ 建立 对 角 和 矩阵 
Sig4 = mat(eye(4)*Sigma[:4]) 
#@ 构建 转换 后 的 物 虽 
XxformedItems = dataMat.T * U[:,:4] * Sig4.I 
for j in range(n): 


























userRating = dataMat[user,j] 
If userRating == 0 or j==item: continue 
similarity = simMeas(xformedItems[item,:].T,xformedItems[j,:].T) 
print 'the %d and %d similarity is: %f' % (item, j, similarity) 
SlimTotal += Similarity 
ratSimTotal += Similarity * USerRating 
if simTotal == 0: return 0 
else: return ratSimTotal/simTotal 


上 述 程序 中 包含 有 一 个 函数 svdEst()。 在 recommend() 中 ， 这 个 函数 用 于 
蔡 换 对 standEst() 的 调用 ， 该 函数 对 给 定 用 户 给 定 物品 构建 了 一 个 评分 
估计 值 。 如 果 将 该 函数 与 程序 清单 142 中 的 standEst () 函 数 进行 比较 ， 
束 会 发 现 很 多 行 代码 都 很 相似 。 该 函数 的 不 同 之 处 就 在 于 它 在 第 3 行 对 
数据 集 进 行 了 SVD 分解 。 在 SVD 分 解 之 后 ， 我 们 只 利用 包含 了 90% 能 量 
值 的 奇异 值 ， 这 些 奇 寞 值 会 以 NumPy 数 组 的 形式 得 以 保存 。 I 
进行 矩阵 运算 ， 那 么 就 必须 要 用 这 些 奇 异 值 构 建 出 一 个 对 角 算 阵 @。 人 然 
后 ， 利 用 u 和 矩阵 将 物品 转换 到 低 维 空间 中 人 @。 


对 于 给 定 的 用 户 ，for 循 环 在 用 户 对 应 行 的 所 有 元 素 上 进行 珊 历 。 这 和 
standEst() 函 数 中 的 for 循 环 的 目的 一 样 ， 只 不 过 这 里 的 相似 度 计算 是 
在 低 维 空间 下 进行 的 。 相 似 度 的 计算 方法 也 会 作为 一 个 参数 传递 给 该 函 
数 。 然 后 ， 我 们 对 相似 度 求 和 ， 同 时 对 相似 度 及 对 应 评分 值 的 乘积 求 
和 。 这 些 值 返回 之 后 则 用 于 佑 计 评分 的 计算 。for 循 环 中 加 入 了 一 
条 print 语 句 ， 以 便 能 够 了 解 相 似 度 计算 的 进展 情况 。 如 果 觉 得 这 些 输 
出 很 累 袭 ， 也 可 以 将 该 语句 注释 挥 。 


接 下 来 看 看 程序 的 执行 效果 。 将 程序 清单 14-3 中 的 代码 输入 到 文件 
svdRec .py 中 并 保存 之 后 ， 在 Python 提示 符 下 运行 如 下 命令 : 




















>>> reload(svdRec) 

<module 'svdRec' from 'svdRec.pyc'> 

>>> svdRec.recommend(myMat, 1, estMethod=svdRec.svdEst) 
The 0 and 3 similarity is 0.362287. 


The 9 and 10 similarity is 0.497753 ， 
[(6，3,.387858021353602)，(8，3.3611246496054976)，(7，3.3587350221130028 ) ] 


下 面 再 答 试 妨 外 一 种 相似 度 计 算 方 法 : 


>>> svdRec.recommend(myMat, 1, estMethod=svdRec.svdEst, 
simMeas=svdRec .pearsSim) 
The 0 and 3 similarity is 0.116304. 


The 9 and 10 similarity is 0.566796. 
[(6, 3.3772856083690845),， (9, 3.3701740601550196),， (4，3,.3675118739831169 ) ] 


我 们 还 可 以 再 用 其 他 多 种 相似 度 计算 方法 尝试 一 下 。 感 兴趣 的 读者 可 以 
将 这 里 的 结果 和 前 面 的 方法 不 侯 SVD 分 解 ) 进行 比较 ， 看 看 到 底 哪 个 
性 能 更 好 。 


14.5.3 ”构建 推荐 引擎 面临 的 挑战 


本 节 的 代码 很 好 地 展示 出 了 推荐 引擎 的 工作 流程 以 及 SVD 将 数据 映射 为 
重要 特征 的 过 程 。 在 撰写 这 些 代码 时 ， 我 尽量 保证 它们 的 可 读 性 ， 但 是 
并 不 保证 代码 的 执行 效率 。 一 个 原因 是 ， 我 们 不 必 在 每 次 估计 评分 时 都 
做 SVD 分 解 。 对 于 上 述 数据 集 ， 是 否 包 含 SVD 分 解 在 效率 上 没有 太 大 的 
区 别 。 但 是 在 更 大 规模 的 数据 集 上 ，SVD 分 解 会 降低 程序 的 速度 。SVD 
分 解 可 以 在 程序 调 入 时 运行 一 次 。 在 大 型 系统 中 ，SVD 每 天 运行 一 次 或 
者 频率 更 低 ， 并 且 还 要 离线 运行 。 


推荐 引擎 中 还 存在 其 他 很 多 规模 扩展 性 的 挑战 性 问题 ， 比 如 矩阵 的 表示 
方法 。 在 上 面 给 出 的 例子 中 有 很 多 0， 实 际 系统 中 0 的 数目 更 多 。 也 许 ， 
我 们 可 以 通过 只 存储 非 零 元 素来 节省 内 存 和 计算 开销 ? 另 一 个 潜在 的 计 
算 资 源 浪费 则 来 自 于 相似 度 得 分 。 在 我 们 的 程序 中 ， 每 次 需要 一 个 推荐 
得 分 时 ， 痢 要 计算 多 个 物品 的 相似 度 得 分 ， 这 些 得 分 记录 的 是 物品 之 间 
的 相似 度 。 因 此 在 需要 时 ， 这 些 记录 可 以 被 另 一 个 用 户 重 复 使 用 。 在 实 
际 中 ， 必 一 个 普通 的 做 法 号 是 离线 计算 并 保存 相似 度 得 分 。 


推荐 引擎 面临 的 另 一 个 问题 就 是 如 何在 缺乏 数据 时 给 出 好 的 推荐 。 这 称 
之 为 冷 启动 〈cold-start) 问题 ， 处 理 起 来 十 分 困难 。 这 个 问题 的 另 一 个 
说 法 是 ， 用 户 不 会 喜欢 一 个 无 效 的 物品 ， 而 用 户 不 喜欢 的 物品 又 无 效 。， 


























如 果 推 荐 只 是 一 个 可 有 可 无 的 功能 ， 那 么 上 述 问 题 倒 也 不 大 。 但 是 如 采 
应 用 的 成 功 与 否 和 推荐 的 成 功 与 否 密切 相交， 那么 问题 就 变 得 相当 严重 
本 





: 也 就 是 次， 在 协同 过 波 场 景 下 ， 由 于 新 物品 到 来 时 由 于 缺乏 所 有 用 户 
对 其 的 喜好 信息 ， 因 此 无 法 判断 每 个 用 户 对 其 的 喜好 。 而 无 法 判断 菏 个 
用 户 对 其 的 喜好 ， 也 就 无 法 利用 该 商品 。 译 者 注 


冷 启动 问题 的 解决 方案 ， 就 是 将 推荐 看 成 是 搜索 问题 。 在 内 部 表现 上 ， 

不 同 的 解决 办 法 虽然 有 所 不 同 ， 但 是 对 用 户 而 言 却 都 是 透明 的 。 为 了 将 
推荐 看 成 是 搜索 问题 ， 我 们 可 能 要 使 用 所 需要 推荐 物品 的 属性 。 在 餐馆 
表 看 的 例子 中 ， 我 们 可 以 通过 各 种 标签 来 标记 菜 大 ， 比 如 素食 、 美 式 

BBQ、 价 格 很 贵 等 等 。 同 时 ， 我 们 也 可 以 将 这 些 属 性 作为 相似 度 计算 所 
需要 的 数据 ， 这 被 称 为 基于 内 容 (content-based) 的 推荐 。 可 能 ， 基 于 
内 容 的 推荐 并 不 如 我 们 前 面 介绍 的 基于 协同 过 滤 的 推荐 效果 好 ， 但 我 们 
拥有 它 ， 这 就 是 个 良好 的 开始 。 

















14.6 示例 : 基于 SVD 的 图 像 压 缩 


在 本 节 中 ， 我 们 将 会 了 解 一 个 很 好 的 关于 如 何 将 SVD 应 用 于 图 像 压 缩 的 

例子 。 通 过 可 视 化 的 方式 ， 该 例子 使 得 我 们 很 容易 就 能 看 到 SVD 对 数据 

近似 的 效果 。 在 代码 库 中 ， 我 们 包含 了 一 张 手写 的 数字 图 像 ， 该 图 像 在 

第 2 章 使 用 过 。 原 始 的 图 像 大 小 是 32x32=1024 像 素 ， 我 们 能 否 使 用 更 少 

a 
诈 帘 


我 们 可 以 使 用 SVD 来 对 数据 降 维 ， 从 而 实现 图 像 的 压缩 。 下 面 我 们 就 会 
看 到 利用 SVD 的 手写 数字 图 像 的 压缩 过 程 了 。 在 下 面 的 程序 清单 中 包含 
了 数字 的 读 入 和 压缩 的 代码 。 要 了 解 最 后 的 压缩 效果 ， 我 们 对 压缩 后 的 
图 像 进行 了 重 构 。 打 开 svdRec.py 文 件 并 加 入 如 下 代码 。 


程序 清单 14-4 图 像 压 缩 函 数 


def printMat(inMat, thresh=0.8): 
for i in range(32): 
for k in range(32): 
if float(inMat[i,k]) > thresh: 
print 1, 
else: print ©, 
print ""' 








def imgCompress(numSV=3, thresh=0.8): 

myl = 

for line in open('0_5.txt').readlines(): 
newRow = [] 
for i in range(32): 

newRow.append(int(line[i])) 

myl.append(newRow 

myMat = mat(myl) 

print "**** original matrix******! 

printMat (myMat, thresh) 

U,Sigma,VT = la.svd(myMat) 

SigRecon = mat(zeros((numSV, numSV))) 

for k in range(numSsV): 
SigRecon[k,k] = Sigma[k] 

reconMat = U[:, :numSV]*SigRecon*VT[ :numSV,:] 

print "**** reconstructed matrix Using %d singular valueS******! % numSsVv 

printMat(reconMat, thresh) 


上 述 程序 中 第 一 个 函数 printMat() 的 作用 是 打印 矩阵 。 由 于 矩阵 包含 了 
浮 点 数 ， 因 此 必须 定义 浅 色 和 深 色 。 这 里 通过 一 个 闵 值 来 界定 ， 后 面 也 
可 以 调 市 该 值 。 该 函数 志 历 所 有 的 算 阵 元 素 ， 当 元 素 大 于 病 值 时 打印 








奇异 值 填充 到 对 角 线 上 。 


et 


上 5 








<module 'svdRec' from 'svdRec.py'> 


>>> reload(svdRec) 


了 。 接 下 来 就 开始 对 原始 图 像 进 行 SVD 分 解 并 重 构图 像 。 在 程序 中 ， 通 


过 将 sigma 重 新 构成 sigRecon 来 实现 这 一 点 。sigma 是 一 个 对 角 窍 阵 ， 


此 需要 建立 一 个 全 0 和 矩阵， 然后 将 前 面 的 那 
最 后 ， 通 过 截断 的 u 和 vr 和 矩阵 ， 用 sigRecon 得 到 重 构 后 的 矩阵 ， 该 矩阵 通 
过 printMat() 函 数 输出 。 


下 一 个 函数 实现 了 图 像 的 压缩 。 它 允许 基于 任意 给 定 的 奇异 值 数目 来 重 
下 面 看 看 该 函数 的 运行 效果 : 


构图 像 。 该 函数 构建 了 一 个 列表 ， 然 后 打开 文本 文件 ， 并 从 文件 中 以 数 
值 方式 读 入 字符 。 在 矩阵 调 入 之 后 ， 我 们 就 可 以 在 屏幕 上 输出 该 矩阵 


1， 合 则 打印 0。 
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00000000000011111111000000000000 


00000000000111111111100000000000 


00000000001111111111110000000000 


000000000011111111111100000000000 
000000000111100000000010000000000 
00000000111100000000001100000000 


000000001111000000000011100000000 


000000001111000000000011100000000 
00000000111100000000001110000000 


00000000111100000000001110000000 
00000000111100000000001110000000 
000000001111000000000011100000000 


00000000111100000000001110000000 


00000000111100000000001110000000 


000000001111000000000011100000000 


00000000111100000000001110000000 
00000000111100000000001110000000 


00000000111100000000001110000000 
000000001111000000000011100000000 
000000001111000000000011100000000 


000000001111000000000011100000000 


000000001111000000000011100000000 


00000000111100000000001100000000 
00000000001111111111111000000000 


00000000001111111111110000000000 


00000000001111111111110000000000 


00000000000011111111100000000000 
00000000000011111111000000000000 
00000000000000000000000000000000 


130。 和 原 数 日 1024 相 比 ， 


的 压缩 比 。 


和 了 
口 


们 到 后 需 要 多 少 个 0-1 的 数字 来 重 构 图 像 呢 ?u 和 v' 部 是 32x2 的 算 阵 ， 
们 获得 了 几乎 101 


可 以 看 到 ， 只 需要 两 个 奇异 值 就 能 相当 精确 地 对 图 像 实现 重 构 。 那 么 ， 
有 两 个 奇异 值 。 因 此 总 数字 数目 是 64+64+2 


14.7 本 章 小 结 


SVD 有 是 一 种 强大 的 降 维 工 具 ， 我 们 可 以 利用 SVD 来 禹 近 卸 阵 并 从 中 提取 
重要 特征 。 通 过 保留 第 阵 80%~~90% 的 能 量 ， 就 可 以 得 到 重要 的 特征 并 
去 挥 噪声 。SVD 已 经 运用 到 了 多 个 应 用 中 ， 其 中 一 个 成 功 的 应 用 和 守 例 就 
征 推荐 引擎 。 


推荐 引擎 将 物品 推荐 给 用 户 ， 协 同 过滤 则 是 一 种 基于 用 户 喜 好 或 行为 数 
据 的 推荐 的 实现 方法 。 协 同 过 滤 的 核心 是 相似 度 计算 方法 ， 有 很 多 相似 
度 计算 方法 都 可 以 用 于 计算 物品 或 用 尸 之 间 的 相似 度 。 通 过 在 低 维 空间 
下 计算 相似 度 ，SVD 提 高 了 推荐 系 引 擎 的 效 末 。 


在 大 规模 数据 集 上 ，SVD 的 计算 和 推荐 可 能 是 一 个 很 困难 的 工程 问题 。 
通过 离线 方式 来 进行 SVD 分 解 和 相似 度 计 算 ， 是 一 种 减少 见 余 计 算 和 推 
AE Be 0 
习 鸭 二 旦 开县 ; 








第 15 章 ”大 数据 与 MapReduce 


本 章 内 容 


MapReduce 

Python 中 Hadoop 流 的 使 用 

使 用 mrjob 库 将 MapReduce 目 动 化 

利用 Pegasos 算 法 并 行 训练 支持 同 量 机 


掌上 人 说 :“ 见 第 ， 你 举 的 例子 是 不 错 ， 但 我 的 数据 太 大 了 ! ”点 无 疑 
问 ， 工 作 中 所 使 用 的 数据 集 将 会 比 本 书 的 例子 大 很 多 。 随 着 大 量 设 备 连 
上 互联 网 加 上 用 户 也 对 基于 数据 的 决策 很 感 兴趣 ， 所 收集 到 的 数据 已 经 
远 远 超出 了 我 们 的 处 理 能 力 。 斑 运 的 是 ， 一 些 开源 的 软件 项 目 提 供 了 海 
量 数 据 处 理 的 解决 方案 ， 其 中 一 个 项 目 束 是 Hadoop， 它 采用 Java 语 言 编 
写 ， 支 持 在 大 量 机 器 上 分 布 式 处 理 数 据 。 


假想 你 为 一 家 网 络 购物 商店 工作 ， 有 很 多 用 户 来 访问 网 站 ， 其 中 有 一 些 
人 会 购买 商品 ， 有 一 些 人 则 在 随意 浏览 后 离开 了 网 站 。 对 于 你 来 说 ， 可 
能 很 想 识 别 那些 有 购物 意愿 的 用 户 。 如 何 实现 这 一 点 ? 可 以 浏览 Web 服 
务 器 日 志 找 出 每 个 人 所 访问 的 网 页 。 日 志 中 或 许 还 会 记录 其 他 行为 ， 如 
果 这 样 ， 束 可 以 基于 这 些 行为 来 训练 分 类 器 。 唯 一 的 问题 在 于 数据 集 可 
能 会 非常 大 ， 在 单机 上 训练 算法 可 能 要 运行 好 几 天 。 本 章 束 将 介绍 一 些 
实用 的 工具 来 解决 这 样 的 问题 ， 包 括 Hadoop 以 及 一 些 基于 Hadoop 的 
Python 工具 包 。 


Hadoop 是 MapReduce 框 架 的 一 个 免费 开源 实现 ， 本 章 首 先 简单 介绍 
MapReduce 和 Hadoop 项 目 ， 然 后 学 习 如 何 使 用 Python 编写 MapReduce 作 
业 :。 这 些 作 业 先 在 单机 上 进行 测试 ， 之 后 将 使 用 亚马逊 的 Web 服 务 在 大 
量 机 器 上 并 行 执行 。 一 有 旦 能 够 熟练 运行 MapReduce 人 作业， 本章 我 们 吏 可 
以 讨论 基于 MapReduce 处 理 机 器 学 习 算 法 任务 的 一 般 解决 方案 。 在 本 章 
中 还 将 看 到 一 个 可 以 在 Python 中 自动 执行 MapReduce 作 业 的 mrjob 框 架 。 
最 后 介绍 如 何 用 mrjob 构 建 分 布 式 SVM， 在 大 量 的 机 器 上 并 行 训练 分 
-大 






































1. 一 个 作业 即 指 把 一 个 MapReduce 程 序 应 用 到 一 个 数据 集 上 。 一 一 译 者 注 


15.1 MapReduce: 分 布 式 计算 的 框架 


MapReduce 


优点 : 可 在 短 时 间 内 完成 大 量 工作 。 
缺点 : 算法 必须 经 过 重 写 ， 需 要 对 系统 工程 有 一 定 的 理解 。 
适用 数据 类 型 : 数值 型 和 标 称 型 数据 。 


MapReduce 是 一 个 软件 框 染 ， 可 以 将 单个 计算 作业 分 配给 多 台 计 算 机 执 
行 。 它 假定 这 些 作 业 在 单机 上 需要 很 长 的 运行 时 间 ， 因 此 使 用 多 台 机 器 
缩短 运行 时 间 。 第 见 的 例子 是 日 常 统计 数字 的 汇总 ， 该 任务 单机 上 执行 
时 间 将 超过 一 整 天 。 


尽 写 有 人 声称 他 们 已 经 独立 开发 过 类 似 的 框架 ， 美 国 还 是 把 MapReduce 
的 专利 颁发 给 了 Google。Google 公 司 的 Jeffrey Dean 和 Sanjay Ghemawat 
在 2004 年 的 一 篇 论文 中 第 一 次 提出 了 这 个 思想 ， 该 论文 的 题目 

是 “MapReduce: Simplified Data Processing on Large Clusters”MapReduce 


的 名 字 由 函数 式 编程 中 和 常用 的 map 和 reduce 两 个 单词 组 成 。 


1. J. Dean, S. Ghemawat, “MapReduce: Si mplified Data Processing on Large Cl usters,” OSDI ’04: 6th Symposium on Operating System Design and Implementa tion, San Francisco, CA, 
December, 2004. 


MapReduce 在 大 量 节 点 组 成 的 集群 上 运行 。 它 的 工作 流程 是 : 单个 作业 
被 分 成 很 多 小 份 ， 输 入 数据 也 被 切片 分 发 到 每 个 节点 ， 各 个 节点 只 在 本 
地 数据 上 做 运算 ， 对 应 的 运算 代码 称 为 mapper， 这 个 过 程 被 称 作 map? 吟 
段 。 每 个 mapper 的 输出 通过 某 种 方式 组 合 〈 一 般 还 会 做 排序 ) 。 排 序 后 
的 结果 再 被 分 成 小 份 分 发 到 各 个 节点 进行 下 一 步 处 理工 作 。 第 二 步 的 处 
理 阶 段 被 称 为 reduce 阶 段 ， 对 应 的 运行 代码 被 称 为 reducer。reducer 的 输 
出 就 是 程序 的 最 终 执行 结 


: map、reduce 一 般 都 不 翻译 ，sort、combine 有 人 分 别 翻译 成 排序 、 合 
并 。mapper 和 reducer 分 别 是 指 进行 map 和 reduce 操 作 的 程序 或 节点 ， 
key/value 有 人 翻译 成 键 / 值 。 这 几 个 词 ， 在 本 章 均 未 翻译 。 I 


MapReduce 的 优势 在 于 ， 它 使 得 程序 以 并 行 方 式 执 行 。 如 采集 群 由 10 个 
节点 组 成 ， 而 原先 的 作业 需要 10 个 小 时 来 完成 ， 那 么 应 用 MapReduce， 
该 作业 将 在 一 个 多 小 时 之 后 得 到 同样 的 结果 。 举 个 例子 ， 给 出 过 去 100 


























年 内 中 国 每 个 省 每 天 的 正确 气温 数据 ， 我 们 想 知 道 近 100 年 中 国 国 内 的 
最 高 气温 。 这 里 的 数据 格式 为 : <province><data><temp>。 为 了 统计 该 
时 段 内 的 最 高 温度 ， 可 以 先 将 这 些 数据 根据 节点 数 分 成 很 多 份 ， 每 个 节 
点 各 自 寻 找 本 机 数据 集 上 的 最 高 温度 。 这 样 每 个 mapper 将 产生 一 个 温 

度 ， 形 如 <"max"><temp>， 也 就 是 所 有 的 mapper 都 会 产生 相同 的 

key: "max" 字 符 串 。 最 后 只 需要 一 个 reducer 来 比较 所 有 mapper 的 输出 ， 

就 能 得 到 全 局 的 最 高 温度 值 。 


注意 : 在 任何 时 候 ， 每 个 mapper 或 reducer 之 间 都 不 进行 通信 ; 。 每 
个 节点 只 处 理 自己 的 事务 ， 且 在 本 地 分 配 的 数据 集 上 运算 。 


3. 这 是 指 mapper 各 自 之 间 不 通信 ，reducer 各 自 之 间 不 通信 ， 而 reducer 会 接收 mapper 生 成 的 数据 。 一 一 译 者 注 


不 同类 型 的 作业 可 能 需要 不 同 数目 的 reducer。 再 回 到 温度 统计 的 例子 ， 
虽然 这 次 使 用 的 数据 集 相 同 ， 但 不 同 的 是 这 里 要 找 出 每 年 的 最 高 温度 。 
这 样 的 话 ，mapper 应 先 找到 每 年 的 最 大 温度 并 输出 ， 所 以 中 间 数 据 的 格 
式 将 形 如 。 此 外 ， 还 需要 保证 所 有 同一 年 的 数据 传递 给 同一 个 reducer， 
这 由 map 和 reduce 阶 段 中 间 的 sort 阶 段 来 完成 。 该 例 中 也 给 出 了 
MapReduce 中 值得 注意 的 一 点 ， 即 数据 会 以 key/value 对 的 形式 传递 。 这 
里 ， 年代 (year) 是 key， 温 度 (temp) 是 value。 因 此 sort 阶 段 将 按照 年 
代 把 数据 分 类 ， 之 后 合并 。 最 终 每 个 reducer 就 会 收 到 相同 的 key 值 。 


从 上 述 例子 可 以 看 出 ，reducer 的 数量 并 不 是 固定 的 。 此 外 ， 在 
MapReduce 的 框架 中 还 有 其 他 一 些 灵 活 的 配置 选项 。MapReduce 的 整个 
编 配 工作 由 主 节 点 (masternode) 控制 。 这 些 主 节点 控制 整个 
MapReduce 作 业 编 配 ， 包 括 每 份 数据 存放 的 节点 位 置 ， 以 及 map、sort 和 
reduce 等 阶段 的 时 序 控制 等 。 此 外 ， 主 节点 还 要 包含 容错 机 制 。 一 般 
地 ， 每 份 mapper 的 输入 数据 会 同时 分 发 到 多 个 节点 形成 多 份 副 本 ， 用 于 
事务 的 失效 处 理 。 一 个 MapReduce 和 集群 的 示意 图 如 图 15-1 所 示 。 
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图 15-1 MapReduce 框 架 的 示意 图 。 在 该 集群 中 有 3 台 双 核 机 器 ， 如 果 机 器 0 失效 ， 作 业 仍 可 以 正常 继续 


图 15-1 的 每 台 机 器 都 有 两 个 处 理 器 ， 可 以 同时 处 理 两 个 map 或 者 reduce 
任务 。 如 果 机 器 0 在 map 阶 段 宕 机 ， 主 节点 将 会 发 现 这 一 点 。 主 节点 在 
发 现 该 问题 之 后 ， 会 将 机 器 0 移出 集群 ， 并 在 剩余 的 节点 上 继续 执行 作 
业 。 在 一 些 MapReduce 的 实现 中 ， 在 多 个 机 器 上 都 保存 有 数据 的 多 个 备 
份 ， 例 如 在 机 器 0 上 存放 的 输入 数据 可 能 还 存放 在 机 器 1 上 ， 以 防 机 器 0 
出 现 问 题 。 同 时 ， 每 个 节点 都 必须 与 主 节 点 通信 ， 表 明 自 己 工作 正常 。 
如 果菜 节点 失效 或 者 工作 异常 ， 主 节点 将 重启 该 节点 或 者 将 该 节点 移出 
可 用 机 器 池 。 


总 结 一 下 上 面 几 个 例子 中 关于 MapReduce 的 学 习 要 点 : 




















主 节点 控制 MapReduce 的 作业 流程 ; 

MapReduce 的 作业 可 以 分 成 map 任 务 和 reduce 任 务 ; 
map 任 务 之 间 不 做 数据 交流 ，reduce 任 务 也 一 样 ; 

在 map 和 reduce 阶 段 中 间 ， 有 一 个 sort 或 combine 阶 段 ; 
数据 被 重复 存放 在 不 同 的 机 器 上 ， 以 防 某 个 机 器 失效 ; 
mapper 利 reducer 传 输 的 数据 形式 为 key/value 对 。 


Apache 的 Hadoop 项 目 是 MapReduce 框 架 的 一 个 实现 。 下 一 节 将 开始 讨论 
Hadoop 项 目 ， 并 介绍 如 何在 Python 中 使 用 它 。 


15.2 ”Hadoop 流 


Hadoop 是 一 个 开源 的 Java 项 目 ， 为 运行 MapReduce 作 业 提 供 了 大 量 所 需 
的 功能 。 除 了 分 布 式 计算 之 外 ，Hadoop 上 自 带 分 布 式 文件 系统 。 


本 书 既 不 是 Java, 也 不 是 Hadoop 的 教材 ， 因 此 本 节 只 对 Hadoop 做 简单 介 
绍 ， 只 要 能 满足 在 Python 中 用 Hadoop 来 执行 MapReduce 作 业 的 需求 即 
可 。 如 果 读 者 想 对 Hadoop 做 深入 理解 ， 可 以 阅读 《Hadoop 实 战 》: 或 者 
浏览 Hadoop 官 方 网 站 上 的 文档 (http://hadoop.apache.org/) 。 此 
外 ，Mahout in actiom: 一 书 也 为 在 MapReduce 下 实现 机 器 学 习 算 法 提供 了 
很 好 的 参考 资料 。 


1. Chuck Lam, Hadoop in Action (Manning Publications, 2010)， 中 文 版 由 人 民 邮 电 出 版 社 出 版 。 





2.Sean Owen, Robin Anil, Ted Dunning, and Ellen Friedman, Mahout in Action (Manning Publications, 2011)， 中 文 版 即将 由 人 民 邮 电 出 版 社 出 版 。 


Hadoop 可 以 运行 Java 之 外 的 其 他 语言 编写 的 分 布 式 程序 。 因 为 本 书 以 

Python 为 主 ， 所 以 下 面 将 使 用 Python 编 写 MapReduce 代 码 ， 并 在 Hadoop 

流 中 运行 。Hadoop 流 
Chttp:/hadoop.apache.org/common/docs/current/streaming.html) 很 像 

Linux 系 统 中 的 管道 (管道 使 用 符号 |， 可 以 将 一 个 命令 的 输出 作为 男 一 

个 命令 的 输入 ) 。 如 果 用 mapper .py 调用 mapper， 用 reducer .py 调 

用 reducer， 那 么 Hadoop 流 就 可 以 像 Linux 命 令 一 样 执行 ， 例 如 : 


cat inputFile,txt | python mapper.py | sort | python reducer.py > outputFile.txt 





这 样 ， 类 似 的 Hadoop 流 就 可 以 在 多 台 机 器 上 分 布 式 执行 ， 用 户 可 以 通过 
Linux 命 令 来 测试 Python 语 言 编写 的 MapReduce 脚 本 。 


15.2.1 分 布 式 计算 均值 和 方差 的 mapper 

接 下 来 我 们 将 构建 一 个 海量 数据 上 分 布 式 计算 均值 和 方差 的 MapReduce 
作业 。 示 范 起 见 ， 这 里 只 选取 了 一 个 小 数据 集 。 在 文本 编辑 器 中 创建 文 
件 mrMeanMapper.py， 并 加 入 如 下 程序 清单 中 的 代码 。 


程序 清单 15-1 分 布 式 均值 和 方差 计算 的 mapper 





Import sys 
from numpy import mat, mean, power 


def read input(file): 
for line in file: 
yield line.rstrip() 
input = read_input(sys.stdin) 
Input = [float(line) for line in input] 
numInputs = len(input) 
input = mat(input) 
sqInput = power(input,2) 


print "%d\t%f\t%f" % (numInputs, mean(input), mean(sqInput)) 
print >> sys.stderr, "report: still alive" 


这 是 一 个 很 简单 的 例子 : 该 mapper 首 先 按 行 读 取 所 有 的 输入 并 创建 一 组 
对 应 的 浮 点 数 ， 然 后 得 到 数组 的 长 度 并 创建 NumPy 和 矩阵 。 再 对 所 有 的 值 
进行 平方 ， 最 后 将 均值 和 平方 后 的 均值 发 送出 去 。 这 些 值 将 用 于 计算 全 
局 的 均值 和 方差 。 


注意 : 一 个 好 的 习惯 是 向 标准 错误 输出 发 送 报告 。 如 果 某 作业 10 分 
钟 内 没有 报告 输出 ， 则 将 被 Hadoop 中 止 。 


下 面 看 看 程序 清单 15-1 的 运行 效果 。 首 先 确 认 一 下 在 下 载 的 源码 中 有 一 
个 文件 inputFile.txt， 其 中 包含 了 100 个 数 。 在 正式 使 用 Hadoop 之 前 ， 
先 来 测试 一 下 mapper。 在 Linux 终 端 执行 以 下 命令 


cat inputFile.txt | python mrMeanMapper.py!] 








如 果 在 Windows 系 统 下 ， 可 在 DOS 窗 口 输入 以 下 命令 


python mrMeanMapper ,py < inputFile.txt 


运行 结果 如 下 : 


100 0.509570 0.344439 
report: still alive 


其 中 第 一 行 是 标准 输出 ， 也 就 是 reducer 的 输入 ; 第 二 行 是 标准 错误 输 
出 ， 即 对 主 节点 做 出 的 啊 应 报告 ， 表 明 本 节点 工作 正常 。 


15.2.2 分布 式 计算 均值 和 方差 的 reducer 





至 此 ，mapper 已 经 可 以 工作 了 ， 下 面 介 绍 reducer。 根 据 前 面 的 介绍 ， 
mapper 接 受 原 始 的 输入 并 产生 中 间 值 传递 给 reducer。 很 多 mapper 是 并 行 
执行 的 ， 所 以 需要 将 这 些 mapper 的 输出 合并 成 一 个 值 。 接 下 来 给 出 
reducer 的 代码 : 将 中 间 的 key/value 对 进行 组 合 。 打 开 文 本 编辑 器 ， 建 立 
文件 mrMeanReducer .py， 然 后 输入 程序 清单 15-2 的 代码 。 


程序 清单 15-2 分布 式 均值 和 方 关 计算 的 reducer 


Import sys 
from numpy import mat, mean, power 


def read input(file): 

for line in file: 

yield line.rstrip() 

input = read_input(sys.stdin) 
mapperout = [line.split('\t') for line in input] 
cumVal=0.0 
cumSumSq=0.0 
cumN=0.0 
for instance in mapperOut: 

nj = float(instance[0]) 

CumN += nj 

cumVal += nj*float(instance[1]) 

cumSumSq += nj*float(instance[2]) 
mean = cumVal/cumN 
varSum = (cumSumSq - 2*mean*cumVal + cumN*mean*mean)/cumN 
print "%d\t%f\t%f" % (cumN, mean, varSum) 
print >> sys.stderr, "report: still alive" 


程序 清单 15-2 就 是 reducer 的 代码 ， 它 接收 程序 清单 15-1 的 输出 ， 并 将 它 
们 合并 成 为 全 局 的 均值 和 方差 ， 从 而 完成 任务 。 
你 可 以 在 自己 的 单机 上 用 下 面 的 命令 测试 一 下 : 


%cat inputFile.txt | python mrMeanMapper.py | python mrMeanReducer .py 





如 果 是 DOS 环 境 ， 键 入 如 下 命令 : 


%python mrMeanMapper.py < inputFile,txt | python mrMeanReducer ,py 


后 面 的 章节 将 介绍 如 何在 多 人 台 机 器 上 分 布 式 运行 该 代码 。 你 手边 或 许 没 
有 10 台 机 器 ， 没 有 问题 ， 下 节 束 会 介绍 如 何 租 用 服务 器 。 


15.3 ”在 Amazon 网 络 服务 上 运行 Hadoop 程 
应 


如 果 要 在 100 台 机 器 上 同时 运行 MapReduce 作 业 ， 那 么 就 需要 找到 100 台 
机 器 ， 可 以 采取 购买 的 方式 ， 或 者 从 其 他 地 方 租用 。Amazon 公 司 通 过 

Amazon 网 络 服 务 (Amazon Web Services, 
AWS，http://aws.amazon.com/) ， 将 它 的 大 规模 计算 基础 设施 租借 给 开 
发 者 。 


AWS 提 供 网 站 、 流 媒体 、 移 动 应 用 等 类 似 的 服务 ， 其 中 存储 、 带 宽 和 
计算 能 力 按 价 收费 ， 用 户 可 以 仅 为 使 用 的 部 分 按时 缴费 ， 无 需 长 期 的 合 
同 。 这 种 仅 为 所 需 买 单 的 形式 ， 使 得 AWS 很 有 诱惑 力 。 例 如 ， 当 你 临 
时 需要 使 用 1000 台 机 器 时 ， 可 以 在 AWS 上 申请 并 做 几 天 实验 。 几 天 后 
当 你 发 现 当 前 的 方案 不 可 行 ， 就 即时 关 掉 它 ， 不 需要 再 为 这 1000 台 机 器 
支出 任何 费用 。 本 节 首 先 介 绍 几 个 目前 在 AWS 上 可 用 的 服务 ， 然 后 介 
绍 AWS 上 运行 环境 的 搭建 方法 ， 最 后 给 出 了 一 个 在 AWS 上 运行 Hadoop 
流 作 业 的 例子 。 


15.3.1 AWS 上 的 可 用 服务 
AWS 上 提供 了 大 量 可 用 的 服务 。 在 行内 人 士 看 来 ， 这 些 服务 的 名 字 很 


容易 理解 ， 而 在 新 手 看 来 则 比较 神秘 。 目 前 AWS 还 在 不 停 地 演变 ， 也 
在 不 断 地 添加 一 些 新 的 服务 。 下 面 给 出 一 些 基本 的 稳定 的 服务 。 











。S3 简单 存储 服务 ， 用 于 在 网 络 上 存储 数据 ， 需 要 与 其 他 AWS 
产品 配合 使 用 。 用 户 可 以 租借 一 组 存储 设备 ， 并 按照 数据 量 大 小 及 
存储 时 间 来 付费 。 

e。 EC2 一 一 弹性 计算 云 (Elastic Compute Cloud) ， 是 使 用 服务 器 镜 

像 的 一 项 服务 。 它 是 很 多 AWS 系 统 的 核心 ， 通 过 配置 该 服务 器 可 

以 运行 大 多 数 的 操作 系统 。 它 使 得 服务 器 可 以 以 镜像 的 方式 在 几 分 

钟 内 局 动 ， 用 户 可 以 创建 、 存 储 和 共享 这 些 镜 像 。EC2 中 “弹性 ”的 

由 来 是 该 服务 能 够 迅速 便捷 地 根据 需求 增加 服务 的 数量 。 

Elastic MapReduce (EMR) 一 一 弹性 MapReduce， 它 是 AWS 的 

MapReduce 实 现 ， 搭 建 于 稍 旧 版 本 的 Hadoop 之 上 (Amazon 和 希望 保 








持 一 个 稳定 的 版 本 ， 因 此 做 了 些 修改 ， 没 有 使 用 最 新 的 Hadoop) 。 
它 提供 了 一 个 很 好 的 GUI， 并 简化 了 Hadoop 任 务 的 启动 方式 。 用 户 
不 需要 因为 集群 琐碎 的 配置 〈 如 Hadoop 系 统 的 文件 导入 或 Hadoop 
机 器 的 参数 修改 ) 而 多 花心 思 。 在 EMR 上 ， 用 户 可 以 运行 Java 作 业 
或 Hadoop 流 作业 ， 本 书 将 对 后 者 进行 介绍 。 


另外 ， 很 多 其 他 服务 也 是 可 用 的 ， 本 书 将 着 重 介绍 EMR。 下 面 还 需要 用 
， 因为 EMR 需 要 从 S3 上 读 取 文件 并 启动 安装 Hadoop 的 EC2 服 
务 器 镜像 。 


15.3.2 ”开启 Amazon 了 网 络 服务 之 旅 


使 用 AWS 之 前 ， 首 先 需要 创建 AWS 账 号 。 开 通 AWS 账 号 还 需要 一 张 信 
用 卡 ， 后 面 章节 中 的 练习 将 花费 大 约 1 美 元 的 费用 。 打 

开 http://aws.amazon.com/ 可 以 看 到 如 图 15-2 所 示 的 界面 ， 在 右上 部 有 “ 现 
在 注册 (Sign Up Now) 按钮 。 点 击 后 按照 指令 进行 ， 经 过 三 个 页 面 就 
可 以 完成 AWS 的 注册 。 注 意 ， 你 需要 注册 S$S3、EC2 和 EMR 三 项 服务 。 
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图 15-2 ”http://aws.amazon.com/ 页 面 右上 部 给 出 了 注册 AWS 账 号 的 按 
钮 


建立 了 AWS 账 号 后 ， 登 录 进 AWS 控 制 台 并 点 击 EC2、Elastic MapReduce 
和 S3 选 项 卡 ， 确 认 你 是 否 已 经 注册 了 这 些 服务 。 如 果 你 没有 注册 某 项 服 
务 ， 会 看 到 如 图 15-3 所 示 的 提示 。 





Elastic Beanstalk S53 EC2 VPC CloudWatch Elastic MapReduce CloudFront RDS SNS 





全 You must sign up for Amazon RDS before you can use the Amazon RDS Console. 
it's quick and free to sign up, just click the button below. 


SeS. A 四 Feedback Support privacy Policy Terms of Use 
A amazoncom company 


图 15-3 ”服务 未 注册 时 的 AWS 控 制 台 提示 信息 。 如 果 你 的 浏览 器 在 
S3、EC2 和 Elastic MapReduce 服 务 页 面 也 有 相应 提示 ， 请 注册 这 些 服 
务 


这 样 就 做 好 了 在 Amazon 集 群 上 运行 Hadoop 作 业 的 准备 ， 下 一 节 将 介绍 
在 EMR 上 运行 Hadoop 的 具体 流程 。 


15.3.3 ”在 EMR 上 运行 Hadoop 作 业 


注册 了 上 所 需 的 Amazon 服 务 之 后 ， 登 录 AWS 控 制 台 并 点 击 S3 选 项 卡 。 这 
里 需要 将 文件 上 传 ， 以 便 AWS 能 找到 我 们 提供 的 文件 。 


1. 首先 需要 创建 一 个 新 的 bucket (可 以 将 bucket 看 做 是 一 个 驱动 
) 。 例 如 ， 创 建 了 一 个 叫做 rustbucket 的 bucket。 注 意 ，bucket 的 
部 字 的 ， 所 有 用 户 均 可 使 用 。 你 应 当 为 自己 的 bucket 创 建 独 
二 子 
2. 然后 创建 两 个 文件 夹 : mrMeanCode 和 mrMeanInput。 将 之 前 用 
Python 编写 的 MapReduce 代 码 上 传 到 mrMeanCode， 另 一 个 目录 
mrMeanInput 用 于 存放 Hadoop 作 业 的 输入 。 


3. 在 已 创建 的 bucket 中 《〈 如 rustbucket) 上 传 文件 inputFile.txt 到 
mrMeanInput 目 杂 。 

4. 将 文件 mrMeanMapper.py 和 mrMeanReducer.py 上 传 到 mrMeanCode 
目录 。 这 样 就 完成 了 全 部 所 需 文件 的 上 传 ， 也 做 好 了 在 多 台 机 器 上 
启动 第 一 个 Hadoop 作 业 的 准备 。 


5. 点 击 Elastic MapReduce 选 项 卡 ， 点 击 “ 创 建新 作业 流 ”(Create New 
Job Flow) 按钮 ， 并 将 作业 流 命 名 为 mrMeang97。 屏 幕 上 可 以 看 到 如 
图 15-4 所 示 的 页 面 ， 在 下 方 还 有 两 个 复 选 框 和 一 个 下 拉 框 ， 选 
择 “ 运 行 自己 的 应 用 程序 ”(Run Your Own Application) 按钮 并 点 
击 “ 继 续 ”(Continue) 进入 到 下 一 步 。 











Create a New Job Flow 


DERNE 108 ROW 


Creating 3 job how to process your data using Amazon Elastic MapReduce is simple and quick. Let's begin by giving Your job fow a 
name and selecting Ks type. if you dont already have an application you'd like to run on Amazon Elastic MapReduce, samples are 
avalable to help you get started, 


Job Flow Namey*; mdMean007 


3 名 | 2 SS 
Create a Job Flow Run your own application A Streaming Job fow runs a singie Hadoop job consisting 
of map and reduce functions that you have uploaded to 
Run a sample application Amazon $3. The functions can be implemented in any of 
the following supported languages: Ruby, Perl, Python, 
PHP, R, Bash, C++, 
Streaming 





图 15-4 EMR 的 新 作业 流 创建 页 面 


6. 在 这 一 步 需要 设 定 Hadoop 的 输入 参数 。 如 果 这 些 参 数 设 置 错 误 ， 作 
业 将 会 执行 失败 。 在 “指定 参数 ”(Specify Parameters) 页 面 的 对 应 





字段 上 输入 下 面 的 内 容 : 


Input Location’: <your bucket name>/mrMeanInput/inputFile.txt 
Output Location’: <your bucket name>/mrMean007Log 


Mapper : "python s3n:// <your bucket 
name>/mrMeanCode/mrMeanMapper .py" 
Reducer : "python s3n:// <your bucket 


name>/mrMeanCode/mrMeanReducer .py" 


可 以 将 “其 他 参数 ”(Extra ”Args) 字段 留 空 。 该 字段 的 作用 是 指定 
一 些 其 他 参数 ， 如 reducer 的 数量 。 本 页 面 将 如 网 15-5 所 示 ， 点 
击 “ 继 续 ”(Continue ) 。 


Create a New Job Flow Cancal X 


( 
SPEOFY PARAMETENS 


Specify Mapper and Reducer functions to run within the Job Flow, The mapper and reducers may be either (1) dass Names referring 
to 3 mapper or reducer class in Hadoop or (i) locations in Amazon S3. (Chck Here for a list of available tools to help you upload and 
download files from Amazon S3,) The format for specifying a location in Amazon S53 15 bucket_name/path_name, The location should 
point to an executable program, for example 3 Python program. Extra arguments are passed to the Hadoop streaming program 
and can specify things such 35 additional files to be loaded into the distrnbuted cache. 


Input Location®: <your bucket name>/mvMeanlnpuUinputFile bd 


Output Location *; <your bucket name>/mrMean007/Log 


NMapper ": "python s3n//<your buckat name>/mrMeanCodejmrWMear 


Reducer®: “python 53n//<your bucket name>/mrMeanCode/mdear 


Extra Args: 





图 15-5 EMR 的 指定 参数 页 面 


7. 下 一 个 页 面 需要 设 定 EC2 的 服务 器 镜像 ， 这 里 将 设 定 用 于 存储 数据 
的 服务 器 数量 ， 默 认 值 是 2， 可 以 改 成 1。 你 也 可 以 按 需 要 改变 EC2 
服务 器 镜像 的 类 型 ， 可 以 申请 一 个 大 内 存 高 运算 能 力 的 机 器 《当然 
也 花费 更 多 ) 。 实 际 上 ， 大 的 作业 经 常 在 大 的 服务 器 镜像 上 运行 ， 





详 见 http:/aws.amazon.com/ec2/#instance。 本 节 的 简单 例子 可 以 选用 
很 小 的 机 器 。 本 页 面 如 图 15-6 所 示 ， 点 击 “ 继 续 ”(Continue) 。 


Create a New Job Flow Cancel X 


[4 
CONFIGURE EC2 INSTANCES 
Specify the Master, Core and Task Nodes to run your job flow. For more than 20 instances, complete the limit request form, 
Master Instance Group: Ths EC2 Nstar 55i0ns Hadoop tasks to Core and Task Nodes and monitors thew stat 
Instance Type: Small (m1.small) 上 Reques Spot Instance 
Core Instance Group: Thes: 
Instance Count: 1 


Instance Type: Small (m1.small) [| Request Spot Instances 


Task Instance Group (Optional): These EC2 nst 


Instance Count: 0 


Instance Type: Small (mt.small) 四 Request Spot Instances 





图 15-6” 设 定 EMR 的 EC2 服 务 器 镜像 的 页 面 ， 在 该 页 面 上 可 以 设 
定 MapReduce 作 业 所 需 的 服务 器 类 型 和 服务 器 数量 


. 下 一 个 是 “高 级 选项 ”(Advanced Options〉 页 面 ， 可 以 设 定 有 关 调 
试 的 一 些 选项 。 务 必 打 开 日 志 选 项 ， 在 “亚马逊 S3 日 志 路 

径 ”(CAmazon  S3 Log path) 里 添加 ssn://<your bucket 
name>/mrMean007DebugLog。 只 有 注册 SimpleDB 才 能 开局 Hadoop 调 
试 服务 ， 它 是 Amazon 的 访问 非 关系 数据 库 的 简单 工具 。 虽然 开局 
了 该 服务 ， 但 我 们 不 准备 使 用 它 来 调试 Hadoop 流 作业 。 当 一 个 
Hadoop 作 业 失 败 ， 会 有 一 些 失败 信息 写 入 上 述 目录 ， 回 头 读 一 下 这 
些 信息 就 可 以 分 析 在 哪里 出 了 问题 。 整 个 页 面 如 图 15-7 所 示 ， 点 
击 “ 继 续 ”(Continue) 。 





Create a New J)ob Flow Cancel X 
( 
ADYANCED OPTIONS 


Here you can select an EC2 key pair, coNnfigure your rans to use VPC, set your job flow debugging options, and enter advanced 
job flow details such as whether Kt is a long running dust 


Amazon EC2 Key Pair: Pioceed without an EC2 Key Pair[v] 


Amazon VPC Subnet 1d: | proceed without a VPC Subnet ID >] 


Create 8 VPC 


Configure your logging options, Learn more， 


Amazon S3 Log Path s3.//<your bucket name>/mrMean007DebugLog 
(Optional): 


Enable Debugging: © Yes No 


Set advanced job flow options. 
Keep Alive Yes 1 No 





图 15-7 EMR 的 高 级 选项 页 面 ， 可 以 设 定 调试 文件 的 存放 位 置 ， 
也 可 以 设 定 继续 目 动 运行 机 制 。 作业 失败 还 可 以 必定 登录 服务 器 
所 需 的 登录 密 钥 。 如 果 想 检查 代码 的 运行 环境 ， 登 录 服 务 器 再 查 
看 是 个 很 好 的 办 法 


. 关键 的 设置 已 经 完成 ， 可 以 在 接 下 来 的 引导 页 面 使 用 默认 的 设 定 ， 
一 直 点 “下 一 步 ”(Next) 到 查看 (Review) 页 面 。 检查 一 下 所 有 的 
配置 是 否 正 确 ， 然后 点 击 底 部 的 < 他 建 作业 流 * (Create Job Flow) 
按钮 。 这 样 新 任务 就 创建 好 了 ， 在 下 一 个 页 面 点 击 “ 关 闭 ”(Close) 
按钮 将 返回 EMR 控 制 台 。 当 作业 运行 的 时 候 ， 可 以 在 控制 台 看 到 其 
运行 状态 。 读 者 不 必 担 心 运行 这 样 一 个 小 作业 花费 了 这 人 么 多 时 间 ， 
因为 这 里 包含 了 新 的 服务 器 镜像 的 配置 。 最 终 页 面 如 图 15-8 所 示 
可 能 你 那里 不 会 有 这 么 多 的 失败 作业 ) 。 











Elastic Beanstalk 5S3 EC2 VPC CloudWatch Elastic MopReduce CloudFront RDS SNS 





Region 时 USEastv 二 Creste Hew job Fbw > 了 Shewhde ORetresh | @ Hep 
Viewing: A E] I OO¢ weoslbromm * ?| 
Name State Creation Date Elapsed Time Normalized Instance Hours 
”miMean007 号 STARTING 2011.02.22 15.21PST Ohours Ominuvtes 0 
My Job Flow5 地 COMPLETED 2011.02.22 14.22PST Ohours 2minutes 1 
My Job Flow4 BFALED 2011.02.22 08:43PST Ohours 3minutes 1 
My Job Flow2 FALED 2011-02-2208:25 PST Ohours 3minutes 1 
My Job Flow2 汤 FALED 2011.02.22 0729PST Ohours 3mnutes 1 
My Job Flow 涟 FALED 2011.02.22 07.25PST Ohours Ominvtes 0 
mtMean BFALED 2011-02-2207:17 PST Ohours Ominutes 0 


图 15-8 EMR 控制 台 显 示 出 了 一 些 MapReduce 作 业 ， 本 章 的 
MapReduce 作 业已 经 在 这 张 图 中 启动 


新 建 的 任务 将 在 开始 运行 几 分 钟 之 后 完成 ， 可 以 通过 点 击 控制 全 顶端 的 
S3 选 项 卡 来 观察 S3 的 输出 。 选 中 S3 控 制 台 后 ， 点 击 之 前 创建 的 

bucket 〈 本 例 中 是 rustbucket) 。 在 这 个 bucket 里 应 该 可 以 看 到 一 个 
mIMean007Log 目 录 。 双 击 打 开 该 目录 ， 可 以 看 到 一 个 文件 part-00000， 
该 文件 就 是 reducer 的 输出 。 双 击 下载 该 文件 到 本 地 机 器 上 ， 用 文本 编辑 
器 打开 该 文件 ， 结 果 应 该 是 这 样 的 : 


100 0.509570 0.344439 


这 个 结果 与 单机 上 用 管道 得 到 的 测试 结果 一 样 ， 所 以 该 结果 是 正确 的 。 
如 果 结 果 不 正确 ， 应 当 怎 样 找到 问题 所 在 呢 ? 退回 到 EMR 选 项 卡 ， 点 
击 “ 已 经 完成 的 任务 ”(Completed Job) ， 可 以 看 到 “调试 ”(Debug) 按 
钮 ， 上 面 还 有 一 个 绿色 小 昆虫 的 动画 。 点 击 该 按钮 将 打开 调试 窗口 ， 可 
以 访问 不 同 的 日 志文 件 。 另 外 ， 点 击 “ 控 制 右 >”〈Controller) 超 链 接 ， 可 
以 看 到 Hadoop 命 令 和 Hadoop 版 本 号 。 


现在 我 们 已 经 运行 了 一 个 Hadoop 流 作业 ， 下 面 将 介绍 如 何在 Hadoop 上 
执行 机 器 学 习 算法 。MapReduce 可 以 在 多 台 机 器 上 运行 很 多 程序 ， 但 这 
些 程序 需要 做 一 些 修改 。 


不 使 用 AWS 


如 果 读 者 不 和 硕 望 使 用 信用 卡 ， 或 者 人 泄露 自己 的 信用 卡 信息 ， 也 能 
在 本 地 机 器 上 运行 同样 的 作业 。 下 面 的 步骤 假定 你 已 经 安装 了 
Hadoop (http://hadoop.apache.org/common/docs/stable/#Getting+Starte 


. 将 文件 复制 到 HDFS: hadoop fs -copyFromLocal inputFile.txt 
mrmean-i 
. 局 动 任务 : 
hadoop jar $HADOOP_HOME/contri b/streaming/hadoop-0.20.2- 
stream- ing.jar -input mrmean-i -output mrmean-o -mapper 


"python mrMeanMap - per.py" -reducer "python 
mrMeanReducer .py" 

. 观 罕 结 
hadoop fs -cat mrmean-o/part-00000 

. 下载 结 


hadoop fs -copyToLocal mrmean-o/part-00000 . 


完成 


15.4 MapReduce 上 的 机 器 学 习 


在 10 台 机 器 上 使 用 MapReduce 并 不 能 等 价 于 当前 机 器 10 倍 的 处 理 能 
在 MapReduce 代 码 编写 合理 的 情况 下 ， 可 能 会 近似 达到 这 样 的 性 能 ， 但 
不 是 每 个 程序 都 可 以 直接 提速 的 ，map 和 reduce 函 数 需 要 正确 编写 才 


行 。 











很 多 机 器 学 习 算 法 不 能 直接 用 在 MapReduce 框 架 上 。 这 也 没关系 ， 正 如 
老话 所 说 :“ 需 求 是 发 明之 母 。” 科 学 家 和 工程 师 中 的 一 些 先驱 已 完成 了 
大 多 数 常 用 机 器 学 习 算法 的 MapReduce 实 现 。 


下 面 的 清单 简要 列 出 了 本 书 第 用 的 机 器 学 习 算 法 和 对 应 的 MapReduce 实 


现 。 


简单 贝 叶 斯 它 属于 为 数 不 多 的 可 以 很 自然 地 使 用 MapReduce 的 
算法 。 在 MapReduce 中 计算 加 法 非常 容易 ， 而 简单 贝 叶 斯 正 需 要 统 
计 在 某 个 类 别 下 某 特 征 的 概率 。 因 此 可 以 将 每 个 指定 类 别 下 的 计算 
作业 交 由 单个 的 mapper 处 理 ， 然 后 使 用 reducer 来 将 结果 加 和 。 


K- 近 邻 算 法 一 一 该 算法 首先 试图 在 数据 集 上 找到 相似 同 量 ， 即 便 数 
据 集 很 小 ， 这 个 步骤 也 将 花费 大 量 的 时 间 。 在 海量 数据 下 ， 它 将 极 
大 地 影响 日 党 商业 周期 的 运转 。 一 个 提速 的 办 法 古 构建 树 来 存储 数 
据 ， 利 用 树 形 结构 来 缩小 搜索 范围 。 该 方法 在 特征 数 小 于 10 的 情况 
下 效果 很 好 。 高 维 数据 下 《如 文本 、 图 像 和 视频 ) 流行 的 近邻 查找 
方法 是 局 部 敏感 哈 硕 算 法 。 


文 持 向 量 机 〈SVM) 一 一 第 6 章 使 用 的 Platt SMO 算 法 在 MapReduce 
框架 下 难以 实现 。 但 有 一 些 其 他 SVM 的 实现 使 用 随机 梯度 下 降 算 法 
求解 ， 如 Pegasos 算 法 。 另 外 ， 还 有 一 个 近似 的 SVM 算法 叫做 最 令 
近 文 持 回 量 机 (proximal SVM) ， 求 解 更 快 并 且 易 于 在 MapReduce 
框架 下 实现 '。 




















奇异 值 分 解 一 -Lanczos 算 法 是 一 个 有 效 的 求解 近似 特征 值 的 算 
法 。 该 算法 可 以 应 用 在 一 系列 MapReduce 作 业 上 ， 从 而 有 效 地 找到 
大 矩阵 的 奇异 值 。 另 外 ， 该 算法 还 可 以 应 用 于 主 成 分 分 析 。 


。 -均值 聚 类 一 一 个 流行 的 分 布 式 聚 类 方法 叫做 canopy 凤 类 ， 可 以 先 
调用 canopy 有 聚 类 法 取得 初始 的 k 个 徐 ， 然 后 再 运行 k- 均 值 聚 类 方法 。 


1. Glenn Fung, Olvi L. Mangasarian, “PSVM: Proximal Support Vector Machine,” [http://Wwww.cs.wisc.edu/dmi/ svm/psvm/](http://www.cs.wisc.edu/dmi/ svm/psvm/). 


如 果 读 者 有 兴趣 了 解 更 多 机 器 学 习 方法 的 MapReduce 实 现 ， 可 以 访问 
Apache 的 Mahout 项 目 主页 (http:/mahout.apache.org/) 以 及 参考 Mahout 
in Action 一 书 。 其 中 Mahout 项 目 以 Java 语 言 编写 ， 该 书 也 对 处 理 大 规模 
数据 的 实现 细节 做 了 很 详细 的 介绍 。 另 一 个 关于 MapReduce 很 棒 的 资源 
是 Jimmy Lin 和 Chris Dyer 写 的 Data Intensive Text Processing with 
Map/Reduce 一 书 。 


接 下 来 将 介绍 一 个 可 以 运行 MapReduce 作 业 的 Python 工具 。 





15.5 ”在 Python 中 使 用 mrjob 来 自动 化 
MapReduce 


上 面 列举 的 算法 大 多 是 从 代 的 。 也 就 是 说 ， 它 们 不 能 用 一 次 MapReduce 
作业 来 完成 ， 而 通常 需要 多 步 。 在 15.3 节 中 ，Amazon 的 EMR 上 运行 
MapReduce 作 业 只 是 一 个 简 例 。 如 果 想 在 大 数据 集 上 运行 AdaBoost 算 法 
该 怎么 办 昵 ? 如 果 想 运行 10 个 MapReduce 作 业 呢 ? 


有 一 些 框架 可 以 将 MapReduce 作 业 流 自动 化 ， 例 如 Cascading 和 Oozie， 

但 它们 不 支持 在 Amazon 的 EMR 上 执行 。Pig 可 以 在 EMR 上 执行 ， 也 可 以 
使 用 Python 脚本 ， 但 需要 额外 学 习 一 种 脚本 语言 。〈Pig 是 一 个 Apache 
项 目 ， 为 文本 处 理 提 供 高 级 编程 语言 ， 可 以 将 文本 处 理 命 令 转 换 成 
Hadoop 的 MapReduce 作 业 。) 还 有 一 些 工 具 可 以 在 Python 中 运行 
MapReduce 作 业 ， 如 本 书 将 要 介绍 的 mrjob。 








mrjob: (http:/packages.python.org/mrjiob/) 之 前 是 Yeljp“〈 一 个 餐厅 点 评 
网 站 ) 的 内 部 框架 ， 它 在 2010 年 底 实现 了 开源 。 读 者 可 以 参考 附录 A 来 
学 习 如 何 安装 和 使 用 。 本 书 将 介绍 如 何 使 用 mrjob 重 写 之 前 的 全 局 均值 
和 方差 计算 的 代码 ， 相 信访 者 能 体会 到 mrjob 的 方便 快捷 。 《需要 指出 
的 是 ，mrjob 是 一 个 很 好 的 学 习 工 具 ， 但 仍然 使 用 Python 语言 编号， 如 
果 想 获得 更 好 的 性 能 ， 应 该 使 用 Java。) 


1.mrjob 文 档 : http://packages.python.org/mrjob/index.html; 源 代码 : https://github.com/Yelp/mrjob. 


15.5.1 mrjob 与 EMR 的 无 颖 集成 


与 15.3 节 介绍 的 一 样 ， 本 节 将 使 用 mrjob 在 EMR 上 运行 Hadoop 流 ， 区 别 
在 于 mrjob 不 需要 上 传 数据 到 $S3， 也 不 需要 担心 命令 输入 是 否 正确 ， 所 
有 这 些 都 由 mrjob 后 台 完 成 。 有 了 mrjob， 读 者 还 可 以 在 自己 的 Hadoop 集 
群 上 运行 MapReduce 作 业 ， 当 然 也 可 以 在 单机 上 进行 测试 。 作 业 在 单机 
执行 和 在 EMR 执 行 之 间 的 切换 十 分 方便 。 例 如 ， 将 一 个 作业 在 单机 执 

行 ， 可 以 输入 以 下 命令 : 


% python mrMean.py < inputFile.txt > myOut.txt 


如 果 要 在 EMR 上 运行 同样 的 任务 ， 可 以 执行 以 下 命令 : 


% python mrMean.py -r emr < inputFile.txt > myOut.txt 


在 15.3 节 中 ， 所 有 的 上 传 以 及 表单 填写 全 由 mrjob 目 动 完成 。 读 者 还 可 以 
添加 一 条 在 本 地 的 Hadoop 集 群 上 执行 作业 的 命令 '， 也 可 以 添加 一 些 命 
令 行 参 数 来 指定 本 作业 在 EMR 上 的 服务 器 类 型 和 数目 。 


1. 意 指 除了 上 面 两 条 命令 之 外 ， 再 加 一 条 。 一 一 译 者 注 
另外 ，15.3 节 中 的 mapper 和 reducer 分 别 存 于 两 个 不 同 的 文件 中 ， 而 mrjob 


中 的 mapper 和 reducer 可 以 写 在 同一 个 脚本 中 。 下 市 将 展示 该 脚本 的 内 
容 ， 并 分 析 其 工作 原理 。 


15.5.2 mrjob 的 一 个 MapReduce 脚 本 剂 析 


用 mrjob 可 以 做 很 多 事情 ， 本 书 仍 从 最 典型 的 MapReduce 作 业 开 始 介 
绍 。 为 了 方便 前 述 ， 继 续 沿 用 前 面 的 例子 ， 计 算数 据 集 的 均值 和 方 产 。 
这 样 读者 可 以 更 专注 于 框架 的 实现 细节 ， 所 以 程序 清单 15-3 的 代码 与 程 
序 清 单 15-1 和 15-2 的 功能 一 致 。 打 开 文 本 编辑 器 ， 创 建 一 个 新 文件 
mrMean.py， 并 加 入 下 面 程序 清单 的 代码 。 


程序 清单 15-3 分布 式 均值 方 普 计算 的 mrjob 实 现 


from mrjob.job import MRJob 











class MRmean(MRJob ) : 
def _init (self, *args, **kwargs): 
super(MRmean, self). init _(*args, **kwargs) 
self.inCount 0 
self.inSum = 
self.inSqSum 


© 


0 





# 接收 输入 数据 流 

def map(self, key, val): 
if False: yield 
inVal = float(val) 
self,.inCount += 1 
self.inSum += inVal 
self.inSqSum += inVal*inVal 





# 所 有 输入 到 达 后 开始 处 理 
def map_final(self): 
mn = self.inSum/self.inCount 
mnSdq = self.inSqSum/self.inCount 
yield (1, [self.inCount, mn, mnSq]) 























def reduce(self, key, packedValues): 
cumVal=0.0; cumSumSq=0.0; cumN=0.0 
for valArr in packedValues: 


nj = float(valArr[0]) 

cumN += nj 

cumVal += nj*float(valArr[1]) 

cumSumSq += nj*float(valArr[2]) 
mean = cumVal/cumN 
var = (cumSumSq - 2*mean*cumVal + cumN*mean*mean)/cumN 
yield (mean, var) 


def steps(self): 

return ([self.mr(mapper=self.map, reducer=self.reduce,mapper_final=self.map_f: 
if name == '_ main _': 

MRmean.run() 








该 代码 分 布 式 地 计算 了 均值 和 方差 。 输 入 文本 分 发 给 很 多 mappers 来 计 
0 这 些 中 间 值 再 通过 reducer 进 行 累 加 ， 从 而 计算 出 全 局 的 均值 
和 方才 。 


为 了 使 用 mrjob 库 ， 需 要 创建 一 个 新 的 MRjob 继 承 类 ， 在 本 例 中 该 类 的 类 
名 为 MRmean。 代 码 中 的 mapper 和 reducer 都 是 该 类 的 方法 ， 此 外 还 有 一 个 
叫做 steps() 的 方法 定义 了 执行 的 步骤 。 执 行 顺 序 不 必 完 全 遵从 于 map- 
reduce 的 模式 ， 也 可 以 是 map-reduce-reduce-reduce， 或 者 map-reduce- 
map-reduce-map-reduce 〈 下 节 会 给 出 相关 例子 ) 。 在 steps() 方 法 里 ， 需 
要 为 mrjob 指 定 mapper 和 reducer 的 名 称 。 如 果 未 给 出 ， 它 将 默认 调 

用 mapper 和 reducer 方 法 。 


首先 来 看 一 下 mapper 的 行为 : 它 类 似 于 for 循 环 ， 在 每 行 输入 上 执行 同 
样 的 步骤 。 如 果 想 在 收 到 所 有 的 输入 之 后 进行 某 些 处 理 ， 可 以 考虑 放 

在 mapper_final 中 实现 。 这 在 看 起 来 有 些 古 怪 ， 但 非常 实用 。 男 外 

在 mapper() 和 mapper_final() 中 还 可 以 共享 状态 。 所 以 在 上 述 例子 中 ， 

首先 在 mapper() 中 对 输入 值 进行 积累 ， 所 有 值 收集 完毕 后 计算 出 均值 和 
平方 均值 ， 最 后 把 这 些 值 作为 中 间 值 通过 yie1ld 语 句 传 出 去 。! 


1， 在 一 个 标准 的 map-reduce 流 程 中 ， 作 业 的 输入 即 mapper 的 输入 ，mapper 的 输出 也 称 为 中 间 值 ， 中 间 值 经 过 排序 、 组 合 等 操作 会 转 为 reducer 的 输入 ， 而 reducer 的 输出 即 为 
作业 的 输出 。 一 一 译 者 注 


中 间 值 以 key/value 对 的 形式 传递 。 如 果 想 传 出 去 多 个 中 间 值 ， 一 个 好 的 
办 法 是 将 它们 打包 成 一 个 列表 。 这 些 值 在 map 阶 段 之 后 会 按照 key 来 排 
序 。Hadoop 提 供 了 更 改 排序 方法 的 选项 ， 但 默认 的 排序 方法 足以 应 付 大 
多 数 的 常见 应 用 。 拥 有 相同 key 的 中 间 值 将 发 送 给 同一 个 reducer。 因 此 
你 需要 考虑 key 的 设计 ， 使 得 在 Sort 阶段 后 相似 的 值 能 够 收集 在 一 起 。 这 
里 所 有 的 mapper 都 使 用 “1” 作 为 key， 因 为 我 希望 所 有 的 中 间 值 都 在 同一 
个 reducer 里 加 和 起 来 。: 


























2. 只 要 所 有 mapper 都 使 用 相同 的 key 就 可 以 。 当 然 ， 不 必 是 “1”， 也 可 以 是 其 他 值 。 一 一 译 者 注 


mrjob 里 的 reducer 与 mapper 有 一 些 不 同 之 处 ，reducer 的 输入 存放 在 欠 代 
器 对 象 里 。 为 了 能 恋 取 所 有 的 输入 ， 需 要 使 用 类 似 for 循 环 的 迭代 
器 。mapper 或 mnapper_final 和 reducer 之 间 不 能 共享 状态 ， 因 为 Python 脚 
本 在 map 和 reduce 阶 段 中 间 没 有 保持 活动 。 如 果 需 要 在 mapper 和 reducer 
之 间 进 行 任何 通信 ， 那 么 只 能 通过 key/value 对 。 在 reducer 的 最 后 有 一 
条 输出 语句 ， 该 语句 没有 key， 因 为 输出 的 key 值 已 经 固定 。 如 果 该 
reducer 之 后 不 是 输出 而 是 执行 另 一 个 mapper， 那 么 key 仍 需要 赋值 。 


无 须 多 言 ， 下 面 看 一 下 实际 效果 ， 先 运行 一 人 mapper， 在 Linux/DOS 的 
命令 行 输入 下 面 的 命令 (注意 不 是 在 Python 提 示 符 下 ) 。 其 中 的 文件 
inputFile.txt 在 第 15 章 的 代码 里 。 








%python mrMean.py --mapper < inputFile.txt 


运行 该 命令 后 ， 将 得 到 如 下 输出 : 


1 [100, 0.50956970000000001, 0.34443931307935999] 


要 运行 整个 程序 ， 移 除 --mapper 选 项 。 


6 on mrMean. < InputFile .txX 
%pyth M py inputrFile.txt 


你 将 在 屏幕 上 看 到 很 多 中 间 步 又 的 描述 文字 ， 最 终 的 输出 如 下 : 


streaming final output from c:\users\peter\appdata\local 
\temp\mrMean.Peter .20110228.172656.279000\output\part-00000 
0.50956970000000001 0.34443931307935999 

removing tmp directory c:\users\peter\appdata\local\ 
temp\mrMean.Peter .20110228.172656.279000 

To stream the valid output into a file, enter the following command: 
%python mrMean.py < inputFile.txt > outFile,.txt 


最 后 ， 要 在 Amazon 的 EMR 上 运行 本 程序 ， 输 入 如 下 命令 (确保 你 已 经 
设 定 了 环境 变量 AWwS_ACCESS_KEY_ID 和 AWS_SECRET_ACCESS_KEY， 这 些 变 
量 的 设 定 见 附录 A) 。 


%python mrMean.py -r emr < inputFile.txt > outFile.txt 


完成 了 mrjob 的 使 用 练习 ， 下 面 将 用 它 来 解决 一 些 机 右 学 习 问 题 。 上 文 
提 到 ， 一 些 迭 代 算 法 仅 使 用 EMR 难 以 完成 ， 因 此 下 一 节 将 介绍 如 何 用 
mrjob 完 成 这 项 任务 。 


15.6 ”示例 : 分 布 式 SVM 的 Pegasos 算 法 


第 4 章 介绍 过 一 个 文本 分 类 算法 : 朴素 贝 叶 斯 。 该 算法 将 文本 文档 看 做 
是 词汇 空间 里 的 向 量 。 第 6 章 又 介绍 了 效果 很 好 的 SVM 分 类 算法 ， 该 算 
法 将 每 个 文档 看 做 是 成 千 上 万 个 特征 组 成 的 问 量 。 


在 机 需 学 习 领 域 ， 海 量 文 档 上 做 文本 分 类 面临 很 大 的 挑战。 怎样 在 如 此 
大 的 数据 上 训练 分 类 器 呢 ?” 如 果 能 将 算法 分 成 并 行 的 子 任务 ， 那 么 
MapReduce 框 架 有 望 帮 我 们 实现 这 一 点 。 回 忆 第 6 半 ，SMO 算 法 一 次 优 
化 两 个 文 持 回 量 ， 并 在 整个 数据 集 上 迭代 ， 在 需要 注意 的 值 上 停止 。 该 
算法 看 上 去 并 不 容易 并 行 化 。 


在 MapReduce 框 架 上 使 用 SVM 的 一 般 方 法 

















1. 收集 数据 : 数据 按 文 本 格式 存放 。 

2. 准备 数据 :输入 数据 已 经 是 可 用 的 格式 ， 所 以 不 需 任何 准备 工作 。 
如 果 你 需要 解析 一 个 大 规模 的 数据 集 ， 建 议 使 用 map 作 业 来 完成 ， 
从 而 达到 并 行 处 理 的 目的 。 

3. 分 析 数 据 : 无 。 

4. 训练 算法 : 与 普通 的 SVM 一 样 ， 在 分 类 器 训练 上 仍 需 人 花费 大 量 的 时 
间 。 

5. 测试 算法 : 在 二 维 空间 上 可 视 化 之 后 ， 观 察 超 平面 ， 判 断 算 法 是 合 


有 效 。 

6. 使 用 算法 : 本 例 不 会 展示 一 个 完整 的 应 用 ， 但 会 展示 如 何在 大 数据 
集 上 训练 SVM。 该 算法 其 中 一 个 应 用 场景 就 是 文本 分 类 ， 通 币 在 文 
本 分 类 里 可 能 有 大 量 的 文档 和 成 千 上 万 的 特征 。 


SMO 算 法 的 一 个 替代 品 是 Pegasos 算 法 ， 后 者 可 以 很 容易 地 写成 
MapReduce 的 形式 。 本 节 将 分 析 Pegasos 算 法 ， 介 绍 如 何 写 出 分 布 式 版 本 
的 Pegasos 算 法 ， 最 后 在 mrjob 中 运行 该 算法 。 








15.6.1 ”Pegasos 算 法 


Pegasos 是 指 原始 估计 梯度 求解 器 (Primal Estimated sub-GrAdient 
Solver) 。 该 算法 使 用 某 种 形式 的 随机 梯度 下 降 方法 来 解决 SVM 所 定义 


的 优化 问题 ， 研 究 表明 该 算法 所 需 的 迭代 次 数 取 雇 于 用 户 所 期 望 的 精确 
度 而 不 是 数据 集 的 大 小 ， 有 关 细 节 可 以 参考 原文 '。 原 文 有 长 文 和 短文 两 
个 版 本 ， 推 荐 阅读 长 文 。 


1. S. Shalev-Shwartz, Y. Singer, N. Srebro, “Pegasos: Primal Estimated sub-GrAdient SOlver for SVM,”Proceed- ings of the 24th International Conference on Machine Learning 2007. 


第 6 章 提 到 ，SVM 算 法 的 目的 是 找到 一 个 分 类 超 平 面 。 在 二 维 情况 下 也 
就 是 要 找到 一 条 直线 ， 将 两 类 数据 分 隔 开 来 。Pegasos 算 法 工作 流程 
是 :; 从 训练 集中 随机 挑选 一 些 样本 点 添加 到 符 处 理 列 表 中 ， 之 后 按 序 判 
呈 每 个 样本 点 是 否 被 正确 分 类 ; 如 果 是 则 忽略 ， 如 末 不 古 则 将 其 加 入 到 
等 更 新 集合 。 批 处 理 完毕 后 ， 权 重 疝 量 按照 这 些 错 分 的 样本 进行 更 新 。 
整个 算法 循环 执行 。 


上 述 算法 伪 代 码 如 下 : 




















将 w 初 始 化 为 9 
对 每 次 批 处 理 
随机 选择 k 个 样本 点 (向 量 ) 
对 每 个 向 量 
如 果 该 向 量 被 错 分 : 


累加 对 w 的 更 新 
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为 了 解 实际 效果 ，Python 版 本 的 实现 见 程序 清单 15-4。 


程序 清单 15-4 SVM 的 Pegasos 算 法 


def predict(w, x): 
return w*x.T 


def batchPpegasos(dataSset, labels, lam, T, Kk): 
m,n = shape(dataSset); w = zeros(n); 
dataIndex = range(m) 
for t in range(1, T+1): 
wDelta = mat(zeros(n)) 
eta = 1.0/(lam*t) 
random. shuffle(dataIndex) 
for j in range(k): 
i = dataIndex[j] 
p = predict(w, dataSet[i,:]) 
If labels[i]*p < 1: 
wDelta += labels[il]*dataSset[i,:].A 
w= (1.0 - 1/t)*w + (eta/k)*wDelta 
return w 


代码 注释 翻译 为 : 


1: 将 得 更 新 值 累加 


程序 清单 15-4 的 代码 是 Pegasos 算 法 的 串 行 版 本 。 输 入 值 T7 和 k 分 别 设 定 了 
迭代 次 数 和 待 处 理 列表 的 大 小 。 在 T 次 欠 代 过 程 中 ， 每 次 需要 重新 计算 
eta。 它 是 学 习 率 ， 代 表 了 权重 调整 幅度 的 大 小 。 在 外 循环 中 ， 需 要 选 
择 为 一 批 样本 进行 下 一 次 批 处 理 ， 在 内 循环 中 执行 批 处 理 ， 将 分 类 错误 
的 值 全 部 累加 之 后 更 新 权重 向 量 @。 


如 有 果 想 试 试 它 的 效果 ， 可 以 用 第 6 章 的 数据 来 运行 本 例 程 序 。 本 书 不 会 
对 该 代码 做 过 多 分 析 ， 它 只 为 Pegasos 算 法 的 MapReduce 版 本 做 一 个 铺 
热 。 下 市 将 在 mrjob 中 建立 并 运行 一 个 MapReduce 版 本 的 Pegasos 算 法 。 














15.6.2 ”训练 算法 : 用 mrjob 实 现 MapReduce 版 本 的 SVM 


本 节 将 用 MapReduce 来 实现 程序 清单 15-4 的 Pegasos 算 法 ， 之 后 再 用 15.5 
节 讨 论 的 mrjob 框 架 运 行 该 算法 。 首 先 要 明日 如 何 将 该 算法 划分 成 map 阶 
段 和 reduce 阶 段 ， 确 认 哪 些 可 以 并 行 ， 哪 些 不 能 并 行 。 


对 程序 清单 15-4 的 代码 运行 情况 稍 作 观 察 将 会 发 现 ， 大 量 的 时 间 人 花费 在 
内 积 计算 上 。 男 外 ， 内 积 运算 可 以 并 行 ， 但 创建 新 的 权重 变量 w 是 不 能 
并 行 的 。 这 就 是 将 算法 改写 为 MapReduce 作 业 的 一 个 切入 点 。 在 编写 
mapper 和 reducer 的 代码 之 前 ， 先 完成 一 部 分 外 围 代码 。 打 开 文 本 编辑 
器， 创建 一 个 新 文件 mrSVM Py， 然后 在 该 文件 中 添加 下 面 程序 清单 的 


程序 清单 15-5 ”mrjob 中 分 布 式 Pegasos 算 法 的 外 围 代码 


from mrjob.job import MRJob 








import pickle 
from numpy import * 


class MRsvm(MRJOb): 
DEFAULT_INPUT_PROTOCOL = 'json_value' 


def _ init (self, *args, **kwargs): 
super(MRsvm, self)._ init _(*args, **kwargs) 
self,.data = pickle.load(open('<path to your Ch15 code directory>\svmDat27')) 
self.w= 0 
self.eta = 0.69 
self.dataList = [] 
self.k = Self,options,batchsize 
self.numMappers = 1 
self.t = 1 


def configure_options(self): 
super (MRsvm, self).configure_ options() 
self.add passthrough option('-- 
iterations', dest='iterations', default=2, type='int',help='T: number of iteratio 
self.add_ passthrough _ option('-- 
batchsize', dest='batchsize', default=100, type='int',help='k: number of data poi 


def steps(self): 

return ([self.mr(mapper=self.map, mapper_final=self.map_fin,reducer=self.redu 
if name == '_ main 

MRsvm.run() 





程序 清单 15-5 的 代码 进行 了 一 些 设 定 ， 从 而 保证 了 map 和 reduce 阶 段 的 
正确 执行 。 在 程序 开头 ，Mrjob、NumPy 和 Pickle 模 块 分 别 通过 一 

条 include 语 句 导 入 。 之 后 创建 了 一 个 mrjob 类 MRsvm， 其 中 _init_() 方 
法 初始 化 了 一 些 在 map 和 reduce 阶 段 用 到 的 变量 。Python 的 模块 Pickle 在 
加 载 不 同 版 本 的 Python 文 件 时 会 出 现 问题 。 为 此 ， 我 将 Python2.6 和 2.7 两 
个 版 本 对 应 的 数据 文件 各 自 存 为 svmDat26 和 svmDat27。 


对 应 于 命令 行 输入 的 参数 ， configure_options() 方 法 建立 了 一 些 变量 ， 
包括 进 代 次 数 〈T) 、 符 处 理 列 表 的 大 小 《〈“k) 。 这 些 参 数 都 是 可 选 的 ， 
如 果 未 指定 ， 它 们 将 采用 默认 值 。 


最 后 ，steps() 方 法 告诉 mrjob 应 该 做 什么 ， 以 什么 顺序 来 做 。 它 创建 了 
一 个 Python 的 列表 ， 包 含 map、map_fin 和 reduce 这 几 个 步 又， 然后 将 该 
列表 乘 以 欠 代 次 数 ， 即 在 每 次 欠 代 中 重复 调用 这 个 列表 。 为 了 保证 作业 
里 的 任务 链 能 正确 执行 ，mapper 需 要 能 够 正确 读 取 reducer 输 出 的 数据 。 
单个 MapReduce 作 业 中 无 须 考 虑 这 个 因素 ， 这 里 需要 特别 注意 输入 和 输 
出 格式 的 对 应 。 


我 们 对 输入 和 输出 格式 进行 如 下 规定 : 








Mapper 


Inputs: <mapperNum, valueList> 
Outputs: nothing 


Mapper_final 


Inputs: nothing 
Outputs: <1, valueList > 


Reducer 


Inputs: <mapperNum, valueList > 
Outputs: <mapperNum, valueList > 


传 入 的 值 是 列表 数组 ，valueList 的 第 一 个 元 素 是 一 个 字符 串 ， 用 于 表 
示 列 表 的 后 面 存放 的 是 什么 类 型 的 数据 ， 例 如 {x',23} 和 ['w”， 
[1,5,6]]。 每 个 mapper_final 都 将 输出 同样 的 key， 这 是 为 了 保证 所 有 的 
key/value 对 都 输出 给 同一 个 reducer。 


定义 好 了 输入 和 输出 之 后 ， 下 面 开 始 写 mapper 和 reducer 方 法 ， 打 开 
mrSVM.py 文 件 并 在 MRsvm 类 中 添加 下 面 的 代码 。 


程序 清单 15-6 分 布 式 Pegasos 算 法 的 mapper 和 reducer 代 码 


def map(self, mapperId, inVals): 
if False: yield 
if inVals[0]=="'w': 
self.w = inVals[1] 
elif inVals[0]=='x"': 
self.dataList.append(invals[1]) 
elif inVals[0]=='t': self.t = inVals[1] 
def map_fin(self): 
labels = self.data[:,-1]; X=self.data[:,0:-1] 
If self.w == 0: self.w = [0.001]*shape(X)[1] 
for index in self.dataList: 
p = mat(self.w)*X[index,:].T 
If labels[index]*p < 1.0: 
yield (1, ['u', index]) 
yield (1, ['w', self.w]) 
yield (1, ['t', self.t]) 
def reduce(self, _, packedVals): 
for valArr in packedVals: 
if valArr[0]=='u': self.dataList.append(valArr[1]) 
elif valArr[0]=='w': self.w = valArr[1] 
elif valArr[0]=='t': self.t = valArr[1] 
labels = self,.data[:,-1]; X=self.data[:,0:-1] 
wMat = mat(self.w); wDelta = mat(zeros(len(self.w))) 
for index in self.dataList: 
#@ 将 更 新 值 累 加 

















wDelta += float(labels[index])*X[index,:] 
eta = 1.0/(2.0*self.t) 
wMat = (1.0 - 1.0/self.t)*wMat + (eta/self.k)*wDelta 
for mapperNum in range(1,self.numMappers+1): 
yield (mapperNum, ['w', wMat.tolist()[0] ]) 
If self.t < self.options.iterations: 
yield (mapperNum, ['t', self.t+1]) 
for j in range(self.k/self.numMappers): 
yield (mapperNum, ['x',random.randint(shape(self.data)[0]) ]) 





程序 清单 15-6 里 的 第 一 个 方法 是 map()， 这 也 是 分 布 式 的 部 分 ， 它 得 到 
输入 值 并 存储 ， 以 便 在 map_fin() 中 人 处理 。 该 方法 文 持 三 种 类 型 的 输 
入 : w 回 量 、t 或 者 x。t 是 迭代 次 数 ， 在 本 方法 中 不 参与 运算 。 状 态 不 能 
保存 ， 因 此 如 果 需 要 在 每 次 达 代 时 保存 任何 变量 并 留 给 下 一 次 迭代 ， 可 
以 使 用 key/value 对 传递 该 值 ， 抑 或 是 将 其 保存 在 磁盘 上 。 显 然 前 者 更 容 


map_fin() 方 法 在 所 有 输入 到 达 后 开始 执行 。 这 时 已 经 获得 了 权重 回 量 w 
和 本 次 批 处 理 中 的 一 组 x 值 。 每 个 x 值 是 一 个 整数 ， 它 并 不 是 数据 本 和 吴 ， 
而 是 索引 。 数 据 存 储 在 磁盘 上 ， 当 脚本 执行 的 时 候 读 入 到 内 存 中 。 

当 map_fin() 司 动 时 ， 它 首先 将 数据 分 成 标签 和 数据 ， 然 后 在 本 次 批 处 
理 的 数据 (存储 在 self.dataList 里 ) 上 进行 迭代 ， 如 果 有 任何 值 被 错 
分 就 将 其 输出 给 reducer。 为 了 在 mapper 和 reducer 之 间 保 存 状 态 ，w 向 量 
和 t 值 都 应 被 发 送 给 reducer。 


最 后 是 reduce() 函 数 ， 对 应 本 例 只 有 一 个 reducer 执 行 。 该 函数 首先 迭代 
所 有 的 key/value 对 并 将 值 解 包 到 一 个 局 部 变量 datalist 里 。 之 

后 dataList 里 的 值 都 将 用 于 更 新 权重 癌 量 w， 更 新 量 在 wpelta 中 完成 累加 
@, 然后 ，wMat 按 照 wpelta 和 学 习 率 eta 进 行 更 新 。 在 wMat 更 新 完毕 后 ， 
又 可 以 重新 开始 整个 过 程 : 一 个 新 的 批 处 理 过 程 开 始 ， 随 机 选择 一 组 癌 
量 并 输出 。 注 意 ， 这 些 向 量 的 key 是 mapper 编 写 。 


为 了 看 一 下 该 算法 的 执行 效果 ， 还 需要 用 一 些 类 似 于 reducer 输 出 的 数据 
作为 输入 数据 启动 该 任务 ， 我 为 此 附 上 了 一 个 文件 kickStart.txt。 在 本 机 
上 执行 前 面 的 代码 可 以 用 下 面 的 命令 : 


%python mrSvM.py < kickStart.txt 
































streaming final output from c:\users\peter\appdata\local\temp 
NmrSvM,Peter .20110301.011916.373000\output\part-00000 

1 ["'w", [0.51349820499999987, -0.084934502500000009]] 
removing tmp directory c:\users\peter\appdata\local\temp 


\mrSVM.Peter ,20110301.011916 .373000 


这 样 就 输出 了 结果 。 经 过 2 次 和 50 次 迭代 后 的 分 类 面 如 图 15-9 所 示 。 


— 50 lterations 
-.- 2 lterations 





2 4 6 8 
图 15-9 ”经 过 多 次 达 代 的 分 布 式 Pegasos 算 法 执行 结果 。 该 算法 收敛 迅 
速 ， 多 次 迭代 后 可 以 得 到 更 好 的 结 


如 果 想 在 EMR 上 运行 该 任务 ， 可 以 添加 运行 参数 ，-r emr。 该 作业 默认 
使 用 的 服务 器 个 数 是 1。 如 果 要 调整 的 话 ， 添 加 运行 参数 : - -num-ec2- 
instances=2 (这 里 的 2 也 可 以 是 其 他 正 整 数 ) ， 整 个 命令 如 下 : 


%python mrSvM,py -r emr --num-ec2-instances=3 < kickStart.txt > myLog ,txXt 





要 查看 所 有 可 用 的 运行 参数 ， 输 入 %python mrSvM.py -h。 


调试 mrjob 


调试 一 个 mrjob 脚 本 将 比 调试 一 个 简单 的 Python 脚本 环 手 得 多 。 这 
里 仅 给 出 一 些 调试 建议 。 


确保 已 经 安装 了 所 有 所 需 的 部 件 : boto、simplejson 和 可 选 的 
PyYAML。 

。 可 以 在 ~/.mrjob.conf 文 件 中 设 定 一 些 参 数 ， 确 定 它 们 是 正确 的 。 

在 将 作业 放 在 EMR 上 运行 之 前 ， 尺 可 能 在 本 地 多 做 调试 。 能 在 花费 
10 秒 束 发 现 一 个 错误 的 情况 下 ， 束 不 要 花费 10 分 钟 才 友 现 一 个 错 


误 。 

检查 base_temp_dir 目 录 ， 它 在 ~/.mrjob.conf 中 设 定 。 例 如 在 我 的 机 
器 上 ， 该 目录 的 存放 位 置 是 /scratchM$USER， 其 中 可 以 看 到 作业 的 
输入 和 输出 ， 它 将 对 程序 的 调试 非常 有 帮助 。 


。 一 次 只 运行 一 个 步骤 。 


到 现在 为 止 ， 读 者 已 经 学 习 了 如 何 编写 以 及 如 何在 大 量 机 器 上 运行 机 需 
学 习作 业 ， 下 节 将 分 析 这 样 做 的 必要 性 。 


15.7 ”你 真 的 需要 MapReduce 吗 ? 


不 需要 知道 你 是 谁 ， 我 可 以 说 ， 你 很 可 能 并 不 需要 使 用 MapReduce 和 
Hadoop， 因 为 单机 的 处 理 能 力 已 经 足够 强大 。 这 些 大 数据 的 工具 是 
Google、Yelp 和 Facebook 等 公司 开发 的 ， 世 界 上 能 有 多 少 这 样 的 公司 ? 


充分 利用 已 有 资源 可 以 节省 时 间 和 精力 。 如 果 你 的 作业 花费 了 太 多 的 时 
间 ， 先 问 问 上 自己 : 代码 是 否 能 用 更 有 效率 的 语言 编号 〈 如 C 或 者 

Java) ? 如 果 语 言 已 经 足够 有 效率 ， 那 么 代码 是 否 经 过 了 充分 的 优化 ? 
影响 处 理 速度 的 系统 瓶颈 在 哪里 ， 是 内 存 还 是 处 理 器 ? 或 许 你 不 知道 这 
些 问 题 的 答案 ， 找 一 些 人 做 些 咨询 或 讨论 将 非常 有 益 。 


大 多 数 人 意识 不 到 单 台 机 器 上 可 以 做 多 少数 字 运 算 。 如 果 没 有 大 数据 的 

问题 ， 一 般 不 需要 用 到 MapReduce 和 Hadoop。 但 对 MapReduce 和 Hadoop 

Mn 
情 。 








15.8 ”本章 小 结 


当 运 算 需 求 超出 了 当前 资源 的 运算 能 力 ， 可 以 考虑 购买 更 好 的 机 器 。 另 
一 个 情况 是 ， 运 算 需 求 超出 了 合理 价位 下 所 能 购买 到 的 机 器 的 运算 能 
力 。 其 中 一 个 解雇 办 法 是 将 计算 转 成 并 行 的 作业 ，MapReduce 束 提供 了 
这 种 方案 的 一 个 具体 实施 框架 。 在 MapReduce 中 ， 作 业 被 分 成 map 阶 段 
和 reduce 阶 段 。 


一 个 典型 的 作业 流程 是 先 使 用 map 阶 段 并 行 处 理 数据 ， 之 后 将 这 些 数 据 
在 reduce 阶 段 合 并 。 这 种 多 对 一 的 模式 很 典型 ， 但 不 是 唯一 的 流程 方 
式 。mapper 和 reducer 之 间 传 输 数 据 的 形式 是 key/value 对 。 一 般 地 ，map 
阶段 后 数据 还 会 按照 key 值 进行 排序 。Hadoop 是 一 个 流行 的 可 运行 
MapReduce 作 业 的 Java 项 目 ， 它 同时 也 提供 非 Java 作 业 的 运行 文 持 ， 叫 
做 Hadoop 流 。 


Amazon 了 网络 服务 (AWS) 人 允许 用 户 按 时 长 租借 计算 资源 。 弹 性 
MapReduce (EMR) 是 Amazon 网 络 服务 上 的 一 个 常用 工具 ， 可 以 帮助 
用 户 在 AWS 上 运行 Hadoop 流 作业 。 简 单 的 单 步 MapReduce 任 务 可 以 在 
EMR 管 理 控制 台 上 实现 并 运行 。 更 复杂 的 任务 则 需要 额外 的 工具 。 其 中 
一 个 相对 新 的 开源 工具 是 mrjob， 使 用 该 工具 可 以 顺序 地 执行 大 量 的 
MapReduce 人 作业。 经 过 很 少 的 配置 ，mrjob 就 可 以 自动 完成 AWS 上 的 各 
种 繁杂 步 又 。 


很 多 机 器 学 习 算法 都 可 以 很 容易 地 写成 MapReduce 作 业 。 而 男 一 些 机 器 
学 习 算法 需要 经 过 创新 性 的 修改 ， 才 能 在 MapReduce 上 运行 。SVM 是 一 
个 强大 的 文本 分 类 工具 ， 在 大 量 文档 上 训练 一 个 分 类 器 需要 耗费 巨大 的 
计算 资源 ， 而 Pegasos 算 法 可 以 分 布 式 地 训练 SVM 分 类 髓 。 像 Pegasos 算 
法 一 样 ， 需 要 多 次 MapReduce 作 业 的 机 器 学 习 算 法 可 以 很 方便 地 使 用 
mrjob 来 实现 。 


到 这 里 为 止 ， 本 书 的 正文 部 分 就 结束 了 ， 感 谢 你 的 阅读 。 和 硕 望 这 本 书 能 
为 你 开局 新 的 大 门 。 男 外 ， 在 机 器 学 习 的 数学 和 具体 实现 方面 还 有 很 多 
东西 值得 探索 。 我 很 期 得 你 能 使 用 在 本 书 里 学 到 的 工具 和 技术 开发 出 一 
些 有 趣 的 应 用 。 



































附录 A Python 入 门 


本 附录 首先 介绍 如 何在 三 种 流行 的 操作 系统 下 安装 Python， 同 时 简要 地 
给 出 一 些 Python 的 入 门 知识 ， 之 后 给 出 一 些 本 书 提 到 的 Python 模 块 的 安 
装 方法 。 最 后 介绍 NumPy 库 ， 也 许 把 它 安 排 在 附录 B 与 那里 的 线性 代数 
一 起 讨论 更 合适 。 





A.1 Python 安 闭 


要 运行 本 书 提供 的 代码 ， 需 要 安 闭 Python 2.7、Numpy 和 Matplotlib。 由 
于 Python 不 支持 向 下 兼容 ， 因 此 在 Python 3.x 下 ， 本 书 代码 不 一 定 能 正常 
和 运行。 上述 模 块 最 简单 的 安装 方法 就 是 用 软件 包 安 装 程序 来 安装 。 这 些 
安装 包 在 Mac OS 和 Linux 下 都 有 提供 。 








A.1.1 Windows 系 统 


可 以 从 http:/www.python.org/getit/ 下 载 ， 注 意 选 择 合适 的 Windows 安 装 
包 〈64 位 或 32 位 ) 并 按说 明 进 行 操作 。 


可 以 从 http://sourceforge.net/projects/numpy/files/NumPy/ 下 载 二 进 制 
NumPy 文 件 ， 这 种 安装 方式 可 以 省 去 目 己 编译 的 态 烦 。 

安装 完毕 后 束 可 以 打开 Python 命 令 行 了 。 在 “运行 ”窗口 输入 cmd 命 令 打 
开 命 令 提 示 符 ， 然 后 键入 以 下 命令 : 


>c:\Python27\python.exe 








这 样 Python 命 令 行 就 会 启动 ， 同 时 可 以 看 到 当前 Python 的 版 本 号 和 编译 
时 间 等 信息 。 


如 果 读 者 不 想 在 启动 Python 的 时 候 输 入 如 此 长 的 命令 
(c:\Python27\python.exe) ， 可 以 为 python 命 令 创 建 一 个 别名 。 我 们 

将 创建 别名 的 细节 留 给 读者 自己 实现 。 

如 果 想 找到 最 新 的 二 进 制 Matplotlib 文 件 ， 可 以 从 Matplotlib 主 

页 http://matplotlib.sourceforge.net/ 找 到 最 新 下 载 地 址 。 它 的 安装 相当 简 
单 ， 下 载 安装 包 后 ， 通 过 点 击 就 可 以 完成 安装 步 又。 


A.1.2 Mac OS X 系 统 





在 Mac OS XX 下 安装 Python、NumPy 和 Matplotlib 的 最 佳 方法 就 是 使 用 
MacPorts。MacPorts 是 一 个 免费 工具 ， 可 以 简化 Mac 系 统 上 软件 的 编译 
和 安装 。 有 关 Macports 的 资料 参见 http:/www.macports.org/。 首 先 必 须 下 


载 MacPorts， 最 好 的 方法 就 是 下 载 正 确 的 .dmg 文 件 。 在 该 站 点 选择 当前 
版 本 的 Mac OS X 系 统 对 应 的 .dmg 文 件 。 下 载 完 成 后 进行 安装 ，MacPorts 
安装 完毕 后 打开 一 个 新 的 终端 窗口 ， 输 入 以 下 命令 : 


>sudo port install py27-matplotlib 


这 会 同时 启动 Python、NumPy 和 Matplotlib 的 安装 。 根 据 机 器 配置 和 网 络 
0 安装 时 间 也 不 尽 相 同 ， 如 果 安 装 过 程 持 续 一 小 时 也 都 是 正 
当然 ， 如 果 读 者 不 想 安装 MacPorts， 也 可 以 分 别 安 装 Python、NumPy 和 
Matplotlib。 它 们 均 有 Mac OS X 版 本 的 二 进 制 安 装 软件 包 ， 安 装 起 来 也 
很 方便 。 

A.1.3 Linux 





在 Debian/Ubuntu 系 统 下 安装 Python、NumPy 和 Matplotliib 的 最 佳 方式 是 
使 用 apt-get 或 者 其 他 发 布 版 本 中 相应 的 软件 包 管 理 器 。 安 装 Matplotlib 时 
会 检查 其 依赖 组 件 是 否 已 经 安装 。 由 于 Matplotlib 依 赖 于 Python 和 
NumPy， 因 此 安装 Matplotlib 时 要 确保 已 经 安装 了 Python 和 NumpPy。 


要 安装 Matplotlib， 打 开 命 令 行 输入 以 下 命令 : 

>sudo apt-get instal1 python-matplotlib 
根据 机 器 配置 和 网 络 速度 的 不 同 ， 安 装 时 间 也 不 相同 ， 整 个 安装 过 程 需 
要 花费 一 些 时 间 。 


全 此 Python 已 经 安装 完毕 ， 下 节 将 介绍 Python 中 的 几 种 数据 类 型 。 


A.2 Python 入 门 


下 面 介 绍 本 书 中 用 到 的 Python 功能 。 本 书 不 对 Python 做 详尽 的 描述 ， 如 
果 读 者 有 兴趣 ， 推 荐 阅读 Elkner、Downey 和 Meyers 的 在 线 免 费 资 

料 : “How to Think Like a Compnuter 
Scientist” (http://www.openbookproject.net/thinkcs/) 。 本 节 还 将 介绍 容 
器 类 型 (collection type) 和 控制 结构 〈control structure) 。 几 乎 每 种 编 
程 语言 都 有 类 似 的 功能 ， 这 里 着 重 给 出 它们 在 Python 中 的 用 法 。 本 节 最 
后 介绍 了 列表 推导 式 (list comprehension) ， 这 是 初学 Python 时 最 容易 
感到 困惑 的 部 分 。 





A.2.1 容器 类 型 


Python 提供 多 种 数据 类 型 来 存放 数据 项 集合 。 此 外 ， 用 户 还 可 以 通过 添 
加 模块 创建 出 更 多 容 需 类 型 。 下 面 列 出 了 几 个 Python 中 利用 的 容器 。 


。 列表 (List) 一 一 列表 是 Python 中 存放 有 序 对 象 的 容器 ， 可 以 容纳 
任何 数据 类 型 : 数值 、 布 尔 型 、 字 符 串 等 等 。 列 表 一 般 用 两 个 括号 
来 表示 ， 下 面 的 代码 演示 了 如 何 创 建 一 个 名 为 和 的 列表 ， 并 在 列表 
内 添加 一 个 整数 和 一 个 字符 串 : 
>>> jj=[] 
>>> jj.append(1) 
>>> jj.append( 'nice hat') 
>>> jj 
[1, 'nice hat'] 








当然 ， 还 可 以 把 元 素 直 接 放 在 列表 里 。 例 如 ， 上 述 列表 jj 还 可 以 用 下 面 
的 语句 一 次 性 构建 出 来 : 


>>> jj = [1, 'nice hat'] 
与 其 他 编程 语言 类 似 ，Python 中 也 有 数组 数据 类 型 。 但 数组 中 仪 能 存放 


同一 种 类 型 的 数据 ， 在 循环 的 时 候 它 的 性 能 优 于 列表 。 为 避免 跟 NumPy 
中 的 数组 产生 混 消 ， 本 书 将 不 会 使 用 该 结构 。 





。 字典 (Dictionary) 一 一 字典 是 一 个 存放 无 序 的 键 值 映 射 
(key/value) 类 型 数据 的 容器 ， 键 的 类 型 可 以 是 数字 或 者 字符 串 。 
在 其 他 编程 语言 中 ， 字 上 典 一 般 被 称 为 关联 数 组 (associative array) 
或 者 映射 (map) 。 下 面 的 命令 创建 了 一 个 字典 并 在 其 中 加 入 了 两 


个 元 素 : 








>>> jj={} 

>>> jj['dog']='dalmatian' 
>>> jj[1]=42 

>>> jj 

{1: 42, 'dog': 'dalmatian'} 


同样 ， 也 可 以 用 一 条 命令 来 完成 上 述 功能 : 


>>> jj = {1: 42, 'dog': 'dalmatian'} 





。 集 合 (Set) 一 一 这 里 的 集合 与 数学 中 集合 的 概 仿 类似， 是 指 由 不 
同 元 素 组 成 的 合集 。 下 面 的 命令 可 以 从 列表 中 创建 一 个 集合 来 : 


>>> a=[1, 2, 2, 2, 4, 5, 5] 
>>> sA=set(a) 

>>> sA 

set([1, 2, 4, 5]) 








集合 支持 一 些 数学 运算 ， 例 如 并 集 、 交 集 和 补 集 。 并 集 用 管道 的 符号 
(1) 来 表示 ， 交 集 用 & 符 号 来 表示 。 


>>> sB=set([4, 5, 6, 7]) 
>>> sB 

set([4, 5, 6, 7]) 

>>> sA-sB 

set([1, 2]) 

>>> sA | sB 

set([1, 2, 4, 5, 6, 7]) 
>>> sA & sB 

set([4, 5]) 


A.2.2 控制 结构 


Python 里 的 缩 进 非常 重要 ， 这 点 也 引 来 了 也 不 少 人 的 抱 奶 ， 但 严格 的 缩 
进 也 能 迫使 编程 人 员 写 出 干将、 可 读 性 强 的 代码 。 在 for 循 环 、while 循 





环 或 者 是 if 语句 中 ， 缩 进 用 来 标识 出 哪 一 段 代码 属于 本 循环 。 这 里 的 缩 
进 可 以 采用 空格 或 者 制 表 符 〈tab) 来 完成 。 而 在 其 他 的 编程 语言 中 ， 

一 般 使 用 大 括号 {  } 或 者 关键 字 来 实现 这 一 点 。 所 以 通过 使 用 缩 进来 代 
二 Python 还 节省 了 不 少 代码 空间 。 下 面 来 看 一 些 负 用 控制 语句 的 
写 读 ， 








1. If 一 一 if 语 句 非 常 的 直观 ， 可 以 在 一 行内 完成 : 


>>> if jj < 3: print "it's less than three man" 





也 可 以 写成 多 行 ， 使 用 缩 进 来 告诉 编译 需 本 语句 尚未 完成 。 这 两 种 
格式 都 是 可 以 的 。 


>>> if jj < 3: 
，print "it's less than three man" 
jj =jj+1 


多 条 件 语句 的 关键 字 else if 在 Python 中 写 做 elif， 而 else 在 Python 
中 仍 写 做 else。 


>>> if jj < 3: jj+=1 
， elif jj==3: jj+=0 
, else: jj = 0 


2. For 一 Python 中 的 for 循 环 与 Java 或 C++0x: 中 的 增强 的 for 循 环 类 
似 ， 它 的 意思 是 用 for 循 环 遍历 集合 中 的 每 个 元 素 。 下 面 分 别 以 列 
表 、 集 合 和 字典 为 例 来 介绍 for 循 环 的 用 法 : 








>>> sB=set([4, 5, 6, 7]) 
>>> for item In SB: 
, print item 


NNO: - 


1. C++0x， 后 来 也 称 为 C++11， 即 ISO/IEC 14882:2011， 是 目前 的 C++ 编 程 语言 的 正式 标准 。 它 取代 第 三 版 标准 ISO/IEC 14882:2003( 第 一 版 ISO/I[EC 14882:1998 公 开 于 
1998 年 ， 第 二 版 于 2003 年 更 新 ， 分 别 通称 C++98 以 及 C++03， 两 者 差异 很 小 )。 一 一 译 者 注 


下 面 志 历 一 部 字典 : 





>>> jj={'dog': 'dalmatian', 1: 45} 
>>> for item in jj: 
.. print item, jj[item] 


1 45 
dog dalmatian 


可 以 看 到 ， 字 — 典 中 的 元 素 会 按键 值 大 小 顺序 遍历 。 
A.2.3 ”列表 推导 式 


新 手 接触 到 Python 最 容易 困惑 的 地 方 之 一 就 是 列表 推导 式 。 列 表 推 寻 式 
用 较为 优雅 的 方式 生成 列表 ， 从 而 避免 大 量 的 见 余 代码 。 但 语法 有 扣 别 
扭 ， 下 面 先 看 一 下 实际 效果 然后 再 做 讨论 : 


>>> a=[1, 2, 2, 2, 4, 5, 5] 

>>> myList = [item*4 for item in al 
>>> myList 

[4, 8, 8, 8, 16, 20, 20] 





列表 推导 式 总 是 放 在 括号 中 。 上 述 代码 等 价 于 : 


>>> myList=[] 
>>> for item in a: 
.. MyList.append(item*4) 
>>> myList 
[4, 8, 8, 8, 16, 20, 20] 


可 以 看 到 ， 得 到 的 myList 结 果 是 一 样 的 ， 但 列表 推导 式 所 需 的 代码 更 
少 。 可 能 造成 困惑 的 原因 是 加 入 到 列表 的 元 素 在 for 循 环 的 前 面 。 这 点 违 
育 了 从 左 到 右 的 文本 阅读 方式 。 


0 








>>> [item*4 for item in a if item>2] 
[16, 20, 20] 





用 列表 推导 式 可 以 写 出 更 有 创意 的 人 代码， 当然 如 果 代 码 很 难 个 读 屏 ， 应 
尽量 实现 出 更 好 的 高 可 读 性 的 代码 。 回 顾 完 这 些 基础 知识 之 后 ， 下 一 节 
将 介绍 如 何 安 装 本 书 用 到 的 各 种 Python 模块 。 





对 大 多 数 纯 Python 模 块 〈 没 有 和 其 他 语言 的 绑 定 模块 ) 来 说 ， 直 接 进 入 
代码 的 解压 目录 ， 输 入 >python setup.py install 即 可 安装 。 这 是 默认 
的 安装 方式 ， 如 果 对 模块 安装 方法 不 太 明 确 时 ， 可 以 尝试 一 下 上 述 合 

令 。Python 将 把 这 些 模块 安装 在 Python 主 目录 下 的 LibsN\site-packages 

子 目 录 里 ， 因 此 不 必 担 心 模块 究竟 被 安装 到 哪个 地 方 或 者 清空 下 载 目 录 
会 不 会 把 它 删 掉 。 


A.3 NumPy 快 速 入 门 


NumPy 库 安装 完成 后 ， 读 者 可 能 在 想 : “这 东西 有 什么 好 处 ? ”正式 来 

说 ，NumPy 是 Python 的 一 个 矩阵 类 型 ， 提 供 了 大 量 和 矩阵 处 理 的 水 数 。 非 
正式 来 说 ， 它 是 一 个 使 运算 更 容易 、 执 行 更 迅速 的 库 ， 因 为 它 的 内 部 运 
算是 通过 C 语 言 而 不 是 Python 实现 的 。 

管 声称 是 一 个 关于 矩阵 的 库 ，NumPy 实 际 上 包含 了 两 种 基本 的 数据 类 
型 : 数组 和 矩阵。 二 者 在 处 理 上 稍 有 不 同 。 如 果 读 者 熟悉 MATLABY 的 
话 ， 和 矩阵 的 处 理 将 不 是 难事 。 在 使 用 标准 的 Python 时 ， 处 理 这 两 种 数据 
类 型 均 需 要 循环 语句 。 而 在 使 用 NumPy 时 则 可 以 省 去 这 些 语 句 。 下 面 是 
数组 处 理 的 一 些 例子 : 


>>> from numpy import array 
>>> mm=array((1，1，1)) 

>>> pp=array((1, 2, 3)) 

>>> pp+mm 

array([2, 3, 4]) 








而 如 果 只 用 和 常规 Python 的 话 ， 完 成 上 述 功 能 需要 使 用 for 循 环 。 
另外 在 Python 中 还 有 其 他 一 些 需要 循环 的 处 理 过 程 ， 例 如 在 每 个 元 素 上 
乘 以 常量 2， 而 在 NumPy 下 就 可 以 写成 : 


>>> pp*2 
array([2, 4, 6]) 





还 有 对 每 个 元 素平 方 : 


>>> 2 
array([1，4，9]) 


可 以 像 列表 中 一 样 访问 数组 里 的 元 系 : 


>>> pp[1] 
2 


NumPy 中 也 文 持 多 维 数组 : 


>>> jj = array([[1, 2, 3], [1, 1, 1]]) 


多 维 数组 中 的 元 素 也 可 以 像 列 表 中 一 样 访 问 : 


>>> jj[9] 
array([1, 2, 3]) 
2 jj[9][1] 


也 可 以 用 和 窍 阵 方式 访问 : 


>>> jj[9,1] 
2 


当 把 两 个 数组 乘 起 来 的 时 候 ， 两 个 数组 的 元 素 将 对 应 相 乘 : 


>>> al=array([1，2,3]) 

>>> a2=array([0.3, 0.2, 0.3]) 
>>> al*a2 

array([ 0.3, 0.4, 0.9]) 


下 面 来 介绍 和 窍 阵 。 
与 使 用 数组 一 样 ， 需 要 从 NumPy 中 导入 matrix 或 者 mat 模 块 : 


>>> from numpy import mat, matrix 





上 述 NumPy 中 的 关键 字 mat 是 matrix 的 缩写 。 


>>> SS = mat([1，2，3]) 
>>> SS 

matrix([[1，2，3]]) 

>>> mm = matrix([1，2，3]) 
>>> mm 

matrix([[1，2，3]]) 


可 以 访问 窍 阵 中 的 单个 元 素 : 


>>> mm[©0, 1] 
2 


可 以 把 Python 列表 转换 成 NumPy 和 矩阵 : 


>>> pyList = [5, 11, 1605] 


>>> mat(pyList) 
matrix([[ 5, 11, 1605]]) 


现在 试 试 将 上 述 两 个 矩阵 相 乘 : 


>>> mm*ss 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "c:\Python27\lib\site-packages\numpy\matrixlib\defmatrix.py", 
line 330, i 
n _ mul 
return N.dot(self, asmatrix(other)) 
ValueError: objects are not aligned 


可 以 看 到 出 现 了 一 个 错误 : 乘法 不 能 执行 。 和 矩阵 数据 类 型 的 运算 会 强制 
执行 数学 中 的 矩阵 运算 ，1x3 的 矩阵 是 不 能 与 1x3 的 窍 阵 相 乘 的 〈 左 矩阵 
的 列 数 和 右 和 矩阵 的 行 数 必须 相等 ) 。 这 时 需要 将 其 中 一 个 矩阵 转 置 ， 使 
得 可 以 用 3x1 的 和 窍 阵 乘 以 1x3 的 窍 阵 ， 或 者 是 1x3 的 官 阵 乘 以 3x1 的 算 
9 因此 可 以 很 方便 地 进行 官 阵 乘法 
过 再 : 

ee 





这 里 调用 了 .7 方法 完成 了 ss 的 转 置 。 
知道 矩阵 的 大 小 有 助 于 上 述 对 齐 错 误 的 调试 ， 可 以 通过 NumpPy 中 的 
shape 方 法 来 查看 矩阵 或 者 数组 的 维 数 : 

>>> from numpy import shape 


>>> shape(mm) 
(1, 3) 











如 果 需 要 把 矩阵 mm 的 每 个 元 素 和 和 矩阵 ss 的 每 个 元 素 对 应 相 乘 应 该 怎么 办 
呢 ? 这 就 是 所 谓 的 元 素 相 乘法 ， 可 以 使 用 NumPy 的 multiply 方 法 : 


>>> from numpy import multiply 
>>> multiply(mm, ss) 
matrix([[1, 4, 9]]) 


此 外 ， 和 矩阵 和 数组 还 有 很 多 有 用 的 方法 ， 如 排序 : 


>>> mm,Sort() 
>>> mm 
matrix([[1i, 2, 3]]) 





注意 该 方法 是 原 地 排序 ( 即 排序 后 的 结果 占用 原始 的 存储 空间 )， 所 以 如 
果 希 望 保留 数据 的 原 序 ， 必 须 事 先 做 一 份 拷贝 。 也 可 以 使 用 argsort() 
方法 得 到 窍 阵 中 每 个 元 素 的 排序 序号 : 

>>> dd=mat([4, 5, 1]) 


>>> dd.argsort() 
matrix([[2, 06, 1]]) 


可 以 计算 矩阵 的 均值 : 


>>> dd.mean() 
3.3333333333333335 


再 回顾 一 下 多 维 数组 : 


>>> jj = mat([[1, 2, 3,], [8, 8, 8]]) 
>>> shape(jj) 
(2, 3) 





这 是 一 个 2x3 的 窍 阵 ， 如 果 想 取出 其 中 一 行 的 元 素 ， 可 以 使 用 冒号 〈: ) 
操作 符 和 行 号 来 完成 。 例 如 ， 要 取出 第 一 行 元 素 ， 应 该 输入 : 


>>> jj[1,:] 
matrix([[8, 8, 8]]) 


还 可 以 指定 要 取出 元 素 的 范围 。 如 果 想 得 到 第 一 行 第 0 列 和 第 1 列 的 元 
素 ， 可 以 使 用 下 面 的 语句 : 


>>> jj[1,90:2] 
matrix([[8, 8]]) 


这 种 索引 方法 能 够 简化 NumPy 的 编程 。 在 数组 和 和 矩阵 数据 类 型 之 外 ， 
NumPy 还 提供 了 很 多 其 他 有 用 的 方法 。 我 建议 读者 浏览 完整 的 官方 文 
档 http:/docs.scipy.org/doc/。 








A.4 _ Beautiful Soup 包 


本 书 使 用 Beautiful Soup 包 来 查找 和 解析 HIML 。 要 安装 Beautiful Soup， 
请 下 载 对 应 的 模 

块 . http:/www.crummy.com/software/BeautifulSoup/#Download.。 

下 载 之 后 解压 ， 进 入 解压 目录 ， 输 入 下 面 的 命令 : 


>python setup.py install 





如 果 在 Linux 下 没有 权限 安装 的 话 ， 使 用 以 下 命令 : 


>Sudo python setup.py install 





Python 的 模块 大 多 都 是 这 样 安装 的 ， 记 得 阅读 每 个 模块 目 带 的 
README .txt 文件 。 


A.5 Mrjob 


Mrjob 用 于 在 Amazon 网 络 服务 上 启动 MapReduce 作 业 。 安 装 mrjob 与 
Python 中 其 他 模块 一 样 方便 : 打开 https://github.com/Yelp/mrjob， 在 页 面 
左边 可 以 看 到 “ZIP” 按 钮 ， 点 击 该 按钮 下 载 最 新 的 版 本 。 用 unzip 和 untar 
解压 文件 ， 进 入 到 解压 目录 后 在 Python 提 示 符 下 输入 : 


>python setup.py install 


GitHub 己 经 列 出 了 很 多 代码 的 样 例 。 此 外 还 有 一 个 不 错 的 网 站 http 
://packages.python.org/mrjob/ 也 提供 了 一 些 Python 的 官方 文档 。 


在 AWS 上 正式 使 用 mrjob 之 前 ， 需 要 设置 两 个 环境 变量 : 
$AWS_ACCESS_KEY_ID 和 $AWS_SECRET_ACCESS_KEY。 它 们 的 值 应 该 设置 成 你 
的 账号 〈 如 果 你 拥有 账号 的 话 ) ， 该 账号 信息 可 以 在 登陆 AWS 后 ， 在 
Account > Security Credentials 页 面 看 到 。 

下 面 来 设 定 一 下 这 些 环境 变量 ， 打 开 命 令 行 提 示 符 ， 输 入 以 下 命令 : 


>Set AWS_ ACCESS_ KEY_ID=1269696969696969 


验证 一 下 是 否 有 效 : 


>echo %AWS ACCESS KEY_ID% 


同样 的 方法 可 以 完成 Aws_SECRET_ACCESS_KEY 的 设置 。 


如 果 要 在 Mac OS X 上 设置 这 些 环境 变量 ， 打 开 终 端 窗口 “新 版 本 的 OS 
XX 使 用 bash 命 令 行 )， 输 入 以 下 命令 : 


>AWS_ACCESS_KEY_ID=1269696969696969 
>export AWS_ACCESS_ KEY_ID 


同样 的 方法 可 以 完成 Aws_SECRET_ACCESS_KEY 的 设置 ， 注 意 字 符 串 不 需要 
引号 。 Ubuntu Linux 也 默认 使 用 bash 命 令 行 ， 所 以 上 述 Mac OS X 命 令 也 
同样 适用 。 如 果 读 者 使 用 的 是 其 他 命令 行 ， 请 自行 查找 相应 的 环境 变量 


设置 方法 ， 不 会 很 难 。 


A.6 Vote Smart 


Vote Smart 项 目 是 一 个 美国 政治 数据 的 数据 源 ， 见 
http://www.votesmart.org/。 用 户 能 通过 REST API 获 取 他 们 的 数据 。 
Sunlight 实 验 室 发 布 了 一 个 资料 齐全 的 Python 接口 来 使 用 该 API。 另 外 ， 
要 使 用 该 API 还 需要 授权 密 钥 (key) ， 可 以 从 
http://votesmart.org/services_api.php 申 请 。 


上 述 Python 接 口 可 以 从 这 里 下 载 : https://github.com/sunlightlabs/python- 
votesmart。 点 击 页 面 左边 的 “ZIP” 按 钮 下 载 最 新 的 版 本 。 下 载 完 毕 后 解 
压 ， 进 入 解压 目录 并 输入 下 面 的 命令 : 


>python setup.py install 


稍 候 片 刻 ， 因 为 API 的 密 钥 需 要 一 段 时 间 激 活 。 作 者 的 API 在 提交 申请 
的 30 分 钟 后 才 得 以 激活 ， 激 活 后 你 将 收 到 一 封 邮件 通知 。 这 样 就 可 以 开 
始 找 寻 那 些 诡 媚 的 政客 们 了 ! 


A.7 Python-Twitter 


Python-Twitter 是 一 个 提供 访问 Twitter 数 据 接口 的 模块 ， 可 以 在 
GoogleCode 上 找到 : http://code.google.com/p/python-twitter/。 下 载 地 
址 : http://code.google.com/p/python-twitter/downloads/list。 解压 tar 包 后 
进入 解压 目录 ， 输 入 以 下 命令 : 


>python setup.py install 


这 样 束 完成 了 该 模块 的 安装 ， 在 申请 到 Twitter API 的 密 钥 之 后 ， 你 就 可 
以 用 Python 代 码 在 Twitter 上 获取 和 发 布 信息 了 。 





附录 B 线性 代数 


为 理解 机 器 学 习 的 高 级 话题 ， 需 要 了 解 一 些 线性 代数 的 知识 。 如 果 想 把 
算法 从 学 术 论 文 上 搬 下 来 用 代码 实现 ， 或 者 研究 本 书 之 外 的 算法 ， 很 可 
能 需要 对 线性 代数 有 基本 的 理解 。 假 设 读者 有 过 这 方面 的 知识 ， 但 是 由 
于 过 去 一 段 时 间 需 要 回顾 这 方面 的 知识 ， 那 么 本 附录 可 以 提供 线性 代数 
的 简单 入 门 或 者 补习 。 如 果 读者 没有 学 过 线性 代数 ， 那 么 我 建议 在 大 学 
选修 这 门 诗 ， 或 者 读 完 一 本 目 学 教材 ， 或 者 通过 视频 来 学 习 。 互 联网 上 
有 很 多 免费 辅导 视频 ， 还 有 很 多 一 学 期 课程 的 免费 录像 可 供 学 习 *。 读 
者 可 能 听 说 过 “数学 不 是 一 种 仅 供 观 归 的 学 科 ” 这 一 说 法 ， 事 实 确实 如 

此 。 只 有 目 己 杀身 通过 例子 求解 才能 强化 基于 书本 或 视频 的 学 习 效果 。 


1. Gilbert ”Strang 有 些 报告 可 以 免费 观看 ， 地 址 为 http:/www.youtube.com/watch?v=ZK30402wflc。 也 可 以 通过 地 址 http:Wocw.mit.edu/courses/mathematics/18-06-linear-algebrasprin 
2010/ 获 得 相关 课程 材料 。 他 的 报告 给 出 了 线性 代数 的 重点 内 容 ， 理 解 起 来 也 不 难 。 另 外 ， 他 的 计算 科学 的 研究 生 课程 也 非常 不 错 ， 地 址 为 http://www.youtube.com/watch? 

















Vv=CgftkEUOFAj0。 


2. 据说 Kahn Academy 的 网 站 上 给 出 了 很 多 线性 代数 的 学 习 视 频 ， 地 址 为 http://www.khanacademy.org/#linear-algebra。 


接 下 来 首先 讨论 线性 代数 中 和 窍 阵 这 一 基本 构件 。 然 后 介绍 官 阵 上 的 一 些 
基本 运算 ,包括 矩阵 求 池 。 再 接着 介绍 机 器 学 习 中 常用 的 问 量 范 数 概 
念 。 最 后 介绍 矩阵 求 导 运算 。 








B.1 和 矩阵 


线性 代数 中 最 基本 的 数据 类 型 是 矩阵 。 和 矩阵 由 行 和 列 组 成 。 


图 B-1 给 出 了 一 个 简单 的 矩阵 样 例 。 该 矩阵 由 3 行 3 列 组 成 。 行 通常 从 上 
到 下 编号 ， 而 列 则 从 左 到 右 编 号 。 第 一 行 的 值 分 别 是 9、9 和 77。 类 似 
地 ， 第 3 列 的 值 分 别 是 77、18 和 10。 在 NumPy 当 中 可 以 通过 调 

用 numpy.shape(myMat) 来 得 到 给 定 和 矩阵 myMat 的 行列 大 小 。 上 述 调用 返回 
的 结 末 形 式 是 ( 行 数 ， 列 数 )。 





1 
eh 

4 1 18 

3 10 10 


图 B-1 一 个 简单 的 3x3 算 阵 ， 图 中 给 出 了 行 、 列 的 方向 


本 书 每 一 章 都 用 到 了 辐 量 ， 而 同 量 是 一 个 特殊 的 惩 阵 ， 其 行 或 列 数目 为 
1。 通 常情 况 下 ， 提 到 问 量 时 不 会 特别 说 是 行 网 量 还 是 列 癌 量 。 如 果 这 
样 ， 则 假设 是 列 同 量 。 图 B-2 左 部 给 出 了 一 个 列 向 量 ， 是 一 个 3x1 的 和 矩 

阵 。 而 在 图 B-2 右 部 给 出 的 是 一 个 1x3 的 行 向 量 。 在 矩阵 的 运算 过 程 中 跟 
踩 矩 阵 的 大 小 十 分 重要 ， 比 如 和 矩阵 乘法 。 





























| 区 ， 刁 


图 B-2 元 边 给 出 了 一 个 列 同 量 ， 右 边 给 出 了 一 个 行 同 量 


矩阵 的 一 个 最 基本 的 运算 是 转 置 ， 即 按照 对 角 线 翻转 矩阵 。 原 来 的 行 变 
成 列 、 列 变 成 行 。 图 B-3 给 出 了 矩阵 B 的 一 个 转 置 过 程 示意 图 。 转 置 运算 
通过 和 窍 阵 上 标的 一 个 大 写 的 T 来 表示 。 转 置 运算 党 用 来 对 窍 阵 处 理 使 之 


更 加 容易 计算 。 
| | |， ， | 


图 B-3 和 托 阵 的 转 置 过 程 ， 转 置 后 行 变 成 列 


可 以 用 一 个 数字 去 加 或 者 乘 以 矩阵 ， 这 相当 于 对 和 矩阵 的 每 个 元 素 都 独 江 
进行 加 法 或 乘法 运算 。 由 于 矩阵 元 素 之 间 的 相对 值 没 有 发 生变 化 ， 而 只 
有 比例 发 生 了 变化 ， 所 以 上 述 这 类 运算 称 为 标量 运算 (scalar operation)。 

如 有 果 想 对 和 矩 阵 进 行 常数 放 缠 变换 或 者 加 上 一 个 常数 偏 移 值 ， 就 可 以 使 用 
矩阵 标量 乘法 或 加 法 运算 。 图 B-4 给 出 了 标量 乘法 和 加 法 的 两 个 例子 。 




















图 B-4 和 窍 阵 上 的 标量 运算 ， 最 后 的 结果 是 每 个 元 素 乘 上 或 者 加 上 茶 个 


标量 


接 下 来 看 一 些 窍 阵 运算 。 如 何 对 两 个 矩阵 求 和 ? 首先 ， 两 个 矩阵 行列 数 
必须 要 相同 才能 进行 求 和 运算 。 和 矩阵 求 和 相当 于 每 个 位 置 上 对 应 元 素 求 
和 。 图 B-5 给 出 了 一 个 例子 。 和 矩阵 减法 运算 与 此 类 似 ， 只 不 过 将 刚才 的 
加 法 变 成 减法 即 可 。 








图 B-5 矩阵 求 和 


一 个 更 有 趣 的 运算 是 矩阵 乘法 。 两 个 矩阵 相 乘 不 像 标 量 滋 法 那么 简单 。 

两 个 矩阵 要 相 乘 ， 前 一 个 矩阵 的 列 数 必须 要 等 于 后 一 个 矩阵 的 行 数 。 例 
如 ， 两 个 分 别 为 3x*4 和 4x1 的 窍 阵 可 以 相 习 ,但 是 3x4 的 矩阵 不 能 和 1x4 

的 矩阵 相 乘 。 而 3x4 的 矩阵 和 4x1 的 矩阵 相 乘 会 得 到 3x1 的 结果 矩阵。 有 
一 种 方法 可 以 快速 检查 两 个 矩阵 能 否 相 乘 以 及 结果 和 矩阵 大 小 ， 将 它们 的 
大 小 连 在 一 起 的 写法 (3x4)(4x1)。 由 于 中 间 的 值 相等 ， 因 此 可 以 进行 乘 
法 运算 。 去 掉 中 间 的 值 之 后 ， 就 可 以 得 到 结果 和 矩阵 的 大 小 3x1。 图 B-6 给 
出 了 一 个 矩阵 乘法 的 例子 。 


0 了 1x7+0x8 了 
x 一 
4 1 8 4x7+1x8 36 


S 2 3x7+2x8 “yg 





图 B-6 一 个 矩阵 乘法 的 示意 图 ， 图 中 3x2 算 阵 乘 以 2x1 算 阵 得 到 一 个 
3x1 和 矩阵 


本 质 上 来 说 ， 图 B-6 中 所 做 的 是 将 3x2 和 矩阵 的 每 一 行 旋转 之 后 与 2x1 和 矩阵 
的 每 一 列 对 齐 ， 然 后 计算 对 应 元 素 的 乘积 并 最 终 求 和 。 和 矩阵 相 乘 还 可 以 
看 成 是 列 的 加 权 求 和 (参见 图 B-7)。 


二 7 1 0 
x ew 
古林 8 7*|4 |+ 8x|1| = | 36 


图 B-7 和 矩阵 乘法 可 以 看 成 是 列 的 加 权 求 和 


在 上 面 第 二 种 看 法 下 ， 最 终 的 结果 虽然 一 样 但 是 采用 了 不 同 的 组 织 方 
式 。 将 矩阵 乘法 看 成 是 列 加 权 求 和 对 于 某 些 算法 很 有 用 ， 比 如 矩阵 相 有 乘 
的 MapReduce 版 本 。 一 般 来 说 ， 两 个 矩阵 X 和 Y 的 乘法 定义 为 : 











(XY); = > XY, 
k=]l 


如 果 对 上 述 两 种 做 法 的 一 致 性 存疑 ， 那么 吕 是 可 以 采用 上 式 来 对 矩阵 求 


积 。 


机 器 学 习 中 的 一 个 音 用 运算 是 对 问 量 求 内 积 (也 称 点 积 )。 比 如 第 6 章 文 持 
回 量 机 中 就 需要 对 回 量 进行 内 积 计算 。 两 个 癌 量 进行 内 积 计 算 时 ， 相 应 
元 素 相 乘 然后 求 和 得 到 最 终 癌 量 。 图 B-8 给 出 了 一 个 示意 图 。 


























1 0 
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图 B-8 两 个 同 量 的 内 积 计算 


通常 来 说 ， 向 量 内 积 还 有 一 层 物理 含义 ， 比 如 某 个 向 量 沿 着 另 一 个 向 量 
的 移动 量 。 回 量 的 内 积 可 以 用 于 计算 两 个 同 量 的 夹 角 余 弦 值 。 在 任意 文 
持 和 矩阵 乘法 的 程序 中 ， 可 以 通过 x 的 转 置 乘 以 Y 实 现 两 个 向量 x 和 Y 的 内 积 
计算 。 如 果 向 量 x 和 Y 的 长 度 都 是 nw， 那 么 两 个 向 量 都 可 以 看 成 mx1 的 算 
了 嘿 ， 因 此 x 是 1xm 的 窍 阵 ，x™*Y 是 1x1 的 矩阵 。 











B.2 和 窍 阵 求 逆 


当 处 理 算 阵 代 数 方程 时 ， 经 常会 位 到 和 矩 阵 的 逆 和 矩阵 。 如 果 xY=I， 其 中 工 

古 单位 阵 (单位 阵 I 的 对 角 线 元 系 均 为 1， 而 其 他 元 素 都 古 0。 任 音 矩 阵 乘 
以 单位 阵 仍 为 原始 矩阵 )， 则 称 x 是 Y 的 逆 算 阵 。 逆 矩阵 的 一 个 实际 缺陷 

古 当 和 窍 阵 不 止 几 个 元 素 时 计算 很 厂 烦 有 旦 基本 不 可 能 通过 手工 计算 。 了 解 
矩阵 什么 时 候 才 有 逆 很 有 帮助 ， 这 样 就 可 以 避免 程序 的 错误 。 和 矩阵 B 的 

逆 算 阵 通 党 表示 为 8-'。 


窍 阵 要 可 逆 必须 要 是 方 阵 。 这 里 所 谓 方 阵 ， 是 指 矩 阵 的 行 数 等 于 列 数 。 
即使 矩阵 是 方 阵 ， 它 也 可 能 不 可 逆 。 如 果 某 个 和 矩阵 不 可 逆 ， 则 称 它 为 奇 
异 (singular) 或 退化 〈degenerate) 矩阵。 如 果菜 个 矩阵 的 一 列 可 以 表 
示 为 其 他 列 的 线性 组 合 ， 则 该 矩阵 是 奇异 矩阵 。 如 果 能 够 这 样 表示 ， 则 
可 以 把 一 列 全 部 归 约 为 0。 图 B-9 给 出 了 这 样 的 一 个 矩阵 样 例 。 将 计算 完 
pa 出 现 这 种 矩阵 就 非常 嘛 烦 ， 因 为 出 现 了 除 零 运 算 。 后 面 会 介 
绍 这 一 点 。 
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0 一 个 奇异 矩阵 的 例子 。 该 矩阵 有 一 列 为 0， 意 味 着 该 窍 阵 不 能 


有 很 多 和 窍 阵 求 逆 的 方法 ， 一 种 方法 是 对 矩 阵 进 行 重 排 然后 每 个 元 素 除 以 
行列 式 。 所 谓 行列 式 是 与 方 阵 关联 的 一 个 特殊 值 ， 通 过 它 能 反映 窍 阵 的 
一 些 信息 。 图 B-10 给 出 了 一 个 2x2 和 矩阵 的 手工 矩阵 求 逆 过 程 。 注 意 一 下 
行列 式 det () 的 计算 方法 。 这 里 每 个 元 素 都 要 除 以 行列 式 。 如 果 和 矩阵 的 
某 列 全 是 0， 则 行列 式 也 为 0。 这 束 会 导致 除 零 运算 ， 由 于 此 时 无 法 运 

算 ， 因 此 该 官 阵 无 法 求 着。 这 就 是 要 求 逆 的 矩阵 必须 满 秩 的 原因 。 

















b11 b12 b22 -b12 
B = B'' = J 
b21 b22 det(B)| -b21 b11 
det(B)=b11b22 — b12b21 


图 B-10 方 阵 B 的 逆 和 矩阵 求解 。 由 于 每 个 矩阵 元 素 都 要 乘 上 1/det(B)， 
因此 det(B) 不 能 为 0(。 如 果 B 为 奇异 和 矩阵， 则 det(B) 为 0， 此 时 无 法 对 B 求 





上 面 已 经 看 到 一 个 2x2 拖 阵 的 求 逆 过 程 。 接 下 来 看 看 3x3 的 矩阵 如 何 求 
逆 ， 你 会 发 现 这 次 要 复杂 得 多 。 图 B-11 给 出 了 一 个 3x3 珑 阵 的 求 逆 计 算 





人 ely 13 
C = |c21 c22 c23 


e314 C2 C3 


C22C33 - C23CC32 c13c32 - c12c33 c12c23 - c13c22 


C-1 = —1 |c23c31-.c21c33 ct11c33-c13c31 ec13c21- c11c23 
det(C) 
c21c32 — c22c31 c31c12 -- c11c32 c11c22 -- c12c21 


det(B)=c11(c22c33-c23c32) + c12(c23c31-c33c21) + c13(c21c32-c22c31) 


图 B-11 一 个 3x3 的 矩阵 C 的 逆 和 矩阵 求解 过 程 。 和 矩阵 更 大 ， 手 工 求 解 的 
难度 也 加 大 。 一 个 大 小 为 n 的 方 阵 的 行列 式 包含 n! 个 元 素 


一 个 值得 吸取 的 教训 就 是 由 于 行列 式 有 nl! 个 元 素 ， 多 元 素 的 矩阵 求 逆 十 
分 复 淋 。 通 常情 况 下 不 会 只 处 理 上 面 那 么 小 的 窍 阵 ， 因 此 和 窍 阵 求 逆 通 常 
使 用 计算 机 完成 。 








B.3 和 托 阵 范 数 


范 数 是 一 个 机 右 学 习 领 域 常用 的 概 仿 。 冠 阵 的 范 数 通 第 写成 在 矩阵 的 两 
边 分 别 加 上 两 条 竖 杠 ， 例 如 | |All1。 下 面 完 介绍 问 量 的 范 数 。 


向 量 的 范 数 运算 会 给 向 量 赋予 一 个 正 标 量 值 。 可 以 把 向 量 范 数 看 成 是 向 
量 的 长 度 ， 这 在 很 多 机 器 学 习 算 法 比如 k 近 邻 中 都 非常 有 用 。 对 于 向 量 
z=[3,4]， 其 长 度 为 V(3^2+4^2 )=5。 这 也 常常 称 为 回 量 的 2 范式 ， 与 
作 11z11 或 11z112?。 


在 某 些 机 器 学 习 算 法 当中 ， 比 如 lasso 回 归 ， 采 用 其 他 的 范 数 计算 方法 可 
能 效果 更 好 。 其 中 L1 范 数 也 很 流行 ， 它 的 男 一 个 名 称 是 曼哈顿 距离 
(Manhattan ”distance)。 问 量 z 的 L1 范 数 为 3+4=7， 写 作 ||z||,。 可 以 定义 
任意 阶 范 数 ， 其 形式 化 定义 如 下 : 











“人 ‘lp 
| 了 = Ed 
>=, Cl 
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器 量 范 数 主要 用 于 确定 回 量 作为 输入 时 的 大 小 。 除 了 上 述 定义 外 ， 用 户 
有 
量 值 。 





B.4 和 窍 阵 求 导 


除了 和 窍 阵 和 回 量 的 加 减 乘除 运算 之 外 ， 还 可 0 
包括 对 向量 和 和 矩阵 的 求 导 。 在 诸如 梯度 下 降 的 算法 中 需要 用 到 这 一 
这 里 的 求 导 并 不 比 常规 的 求 导 更 难 ， 只 是 要 清楚 这 里 的 入 念 和 定义 











-| sinx 一 1 
对 于 向 量 Sin3x 一 47]， 可 以 对 x 求 导 ， 得 到 另 一 个 向 量 
d4 | cosx 
dx | 3cos3x 
。 如 果 A 要 对 另 一 个 同 量 求 导 ， 会 得 到 一 个 矩阵 。 比 
如 ， 男 一 个 同 量 
如 果 A (一 个 2x1 的 向 量 ) 要 对 B (一 个 3x1 的 向 量 ) 求 导 ， 会 得 到 如 下 
3x2 的 矩阵 
四 加 
4 
dB 
0 0 
更 一 般 地 ， 有 : 
dA4l d42 
dxl dx 
dd _| dd dd2 
dB dyl] dy2 
d4l dA2 





附录 C 概率 论 复习 


本 附录 复习 概率 论 的 一 些 基本 概念 。 概 率 论 博大 精深 而 本 书 篇 幅 有 限 ， 
如 末 读 者 已 经 研究 过 概率 论 ， 可 以 将 本 附录 视 为 一 个 简单 的 复习 材料 。 
如 果 读 者 尚未 踏足 概率 论 及 其 相关 知识 ， 作 者 建议 在 这 个 浅显 的 附录 之 
外 再 做 一 些 扩展 阅读 。 例 如 ，Khan 学 院 已 经 为 目 学 者 提供 了 很 多 有 用 的 
入 门 讲座 和 视频 '。 


1. Khan Academy. http://www.khanacademy.org/?video=basic-probability#probability. 


C.1 概率 论 简介 


概率 (probability) 定 义 为 一 件 事情 发 生 的 可 能 性 。 事 情 发生 的 概率 可 以 通 
过 观测 数据 中 的 事件 发 生 次 数 来 计算 ， 事 件 发 生 的 概率 等 于 该 事件 发 生 
的 次 数 除 以 所 有 事件 发 生 的 总 次 数 。 下 面 举 出 一 些 事件 的 例子 。 











扔 出 一 枚 人 硬币， 结果 头像 彰 上 。 
一 个 新 生 屡 儿 是 女孩 。 

一 架 飞 机 安全 着 陆 。 
菏 天 是 雨天 。 


观察 上 述 事件 ， 下 面 分 析 一 下 如 何 计算 它们 的 概率 。 例 如 我 们 收集 到 美 
国 五 大 湖 地 区 的 一 些 天 气 数据 ， 在 该 数据 里 ， 天 气 补 分 成 三 类 : {上 晴 
天 、 雨 天 、 雪 天 }， 如 表 C-1 所 示 。 


表 C-1 五 大 湖 地 区 去 年 冬天 的 天 气 观 测 数据 








2 2 23 下 雪 
3 4 8 相当 
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我 们 可 以 借用 该 表 估计 出 当地 的 天 气 是 下 雪 的 概率 。 表 C-1 的 数据 只 有 7 
个 观察 值 ， 并 且 观 察 时 间 也 不 连续 ， 但 这 是 目前 所 能 获得 的 所 有 数据 。 
如 果 将 事件 的 概率 记 做 P( 事 件 )， 那 么 天 气 是 雪 天 的 概率 P( 天 气 = 下 雪 ) 可 
以 用 下 式 计算 : 
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这 里 将 上 述 概率 记 做 是 P( 天 气 = 下 雪 )， 但 天 气 是 唯一 能 取 到 “下 雪 ” 这 个 
值 的 变量 ， 所 以 此 概率 还 可 以 简写 为 P( 下 雪 )。 根 据 概 率 的 基本 定义 ， 
我 们 继续 计算 出 天 气 = 下 雨 的 概率 和 天 气 = 晴 的 概率 。 请 读者 自行 检查 一 
是否 有 P( 下 雨 )=2/7 和 P( 晴 )=3/7。 上 文 介绍 了 如 何 计算 变量 取 到 某 个 特 
定 值 的 概率 ， 若 需要 同时 关注 多 个 变量 应 该 怎么 办 呢 ? 























C.2 ”联合 概率 


如 果 两 件 事 同 时 发 生 概 率 应 当 如 何 计 算 呢 ， 例 如 天 气 = 下 雪 且 星期 几 

=2? 不 难 想到 ， 这 个 概率 应 该 等 于 两 件 事情 都 为 真 的 次 数 除 以 所 有 事件 
发 生 的 总 次 数 。 简 单 来 计算 一 下 : 只 有 一 个 样本 点 满足 天 气 = 下 雪 且 星 
期 几 =2， 所 以 这 个 概率 应 当 是 /7。 这 种 联合 事件 的 概率 一 般 用 逗号 隔 
开 的 变量 来 表示 : P( 天 气 = 雪 天 ， 星 期 几 =2)。 一 般 地 ， 对 事件 X 和 了 来 
说 ， 对 应 的 联合 概率 应 该 记 为 P(X, 了 )。 


读者 可 能 还 看 到 过 一 些 形 如 P(X， ”7|Z) 的 概率 ， 这 里 的 竖 杠 代表 条 件 概 
率 ， 所 以 这 个 式 子 表示 : 在 给 定 事件 Z 的 条 件 下 事件 Xx 和 Y 都 发 生 的 概 
率 。 条 件 概率 的 内 容 可 以 参见 第 4 章 。 


要 进行 概率 运算 ， 还 需要 了 解 几 条 基本 的 运算 规则 。 一 旦 掌握 了 这 些 规 
则 ， 我 们 就 可 以 计算 代数 表达 式 的 概率 ， 并 能 从 已 知 量 推出 未 知 量 。 下 
节 将 对 这 些 基本 规则 进行 逐一 介绍 。 












































C.3 ”概率 的 基本 准则 


概率 的 基本 准则 使 我 们 可 以 在 概率 上 做 数学 演算 ， 这 些 准 则 与 代数 里 的 
公理 一 样 ， 需 要 牢记 。 本 书 将 对 它们 依次 做 出 介绍 ， 并 用 表 C-1 的 数据 
做 辅助 分 析 。 


可 以 看 到 ， 前 面 计算 出 的 概率 都 是 分 数 。 如 果 数 据 集 里 的 所 有 天 气 都 是 
雪 天 ， 那 么 P( 下 雪 ) 将 会 是 77， 即 等 于 1。 如 果 数 据 集 里 没有 雪 天 ， 那 
么 P( 下 雪 ) 将 会 是 0/7， 即 等 于 0。 所 以 对 任何 事件 X 来 襄 ，0<P(X)<1。 


雪 天 的 求 补 事件 记 为 ~ 下 雪 或 者 -下 雪 。 求 补 意味 着 除了 给 定 事 件 (下 
雪 ) 以 外 的 任何 其 他 事件 。 在 表 C-1 的 天 气 中 ， 其 他 事件 包括 下 雨 和 
晴 。 在 仅 有 这 三 种 可 能 的 天 气 事件 下 ， P(- 下 雪 ) = P( 下 雨 ) + P( 晴 天 ) = 
5/7， 而 同时 P( 下 雪 )= 207， 所 以 P( 下 雪 ) + P(- 下 雪 )=1。 另 一 种 说 法 是 下 
雪 + ”下 雪 事 件 总 为 真 。 用 图 表 将 其 可 视 化 能 帮助 我 们 理解 这 些 事件 间 
的 关系 ， 其 中 一 种 很 有 用 的 图 就 是 文 氏 网 ， 它 在 表示 集合 的 时 候 非 常 有 
效 。 图 C-1 展 示 了 所 有 可 能 的 天 气 状况 的 事件 集合 。 雪 天 占据 了 图 中 的 
圆圈 内 的 区 域 ， 而 非 雪 天 则 占据 了 其 他 区 域 。 






































图 C-1 上 图 的 圆 峰 内 表示 “下 雪 天 ”事件 (将 其 他 事件 排除 在 圆 立 之 
外 ) ， 下 图 的 圆圈 外 则 表示 除 “ 雪 天 ”外 的 其 他 所 有 事件 。 这 样 ， 雪 天 
和 非 雪 天 就 包括 了 所 有 事件 。 


概率 论 的 最 后 一 个 基本 准则 是 关于 多 变量 的 。 图 C-2 的 文 氏 图 描述 了 表 
C-1 中 的 两 个 事件 的 关系 ， 事 件 一 是 “天 气 = 下 雪 ”， 而 事件 二 是 “星期 几 
=2”。 这 两 个 事件 不 是 互 斥 的 ， 也 就 是 说 它们 可 能 同时 发 生 。 有 些 下 雪 





























天 恰好 是 星期 二 ， 也 有 些 下 雪 天 不 是 星期 二 。 因 此 这 两 个 事件 在 图 中 的 
区 域 有 一 部 分 重合 但 并 不 完全 重合 。 








图 C-2 表示 两 个 相交 事件 的 文 开 图 


图 C-2 中 的 重 登 区 域 被 认为 是 两 个 事件 的 交集 ， 可 以 直观 地 记 做 (天 气 = 
雪 天 ) AND (星期 几 =2)。 如 何 计 算 P(( 天 气 = 雪 天 ) OR (星期 几 =2)) 呢 ? 可 
以 用 减 去 重 登 部 分 的 方法 来 避免 重复 计数 : P( 雪 天 AND 星期 二 )=P( 雪 
天 )+P( 星 期 二 )-P( 雪 天 AND 星期 二 )。 如 果 将 上 式 一 般 化 就 得 到 式 
子 : P(X OR 了 =P(XW)+P( 了 DD)-P(X AND 了 六。 该 公式 很 有 意义 ， 它 在 AND 和 
OR 的 概率 之 间 搭 起 了 桥梁 。 


通过 这 些 基本 的 概率 运算 准则 束 可 以 计算 出 各 种 事件 的 概 紊 。 通 过 假设 
和 先 验 知识 可 以 推算 出 未 观测 到 的 事件 的 概率 。 














附录 DD 资源 


数据 收集 是 件 非 常 有 趣 的 事情 ， 但 当 你 对 某 算法 灵感 涌 来 并 试图 做 一 些 
实验 的 时 候 ， 临 时 找 数 据 也 是 件 很 头疼 的 事情 。 本 附录 提供 了 一 些 可 用 
数据 集 的 超 链接 。 这 些 数据 集 的 大 小 从 20 行 到 万 亿 行 不 等 ， 从 中 找到 所 
需 数 据 应 该 不 是 一 件 难事 : 














http://archive.ics.uci.edu/ml/ 一 一 最 有 名 的 机 器 学 习 数 据 资 源 来 自 美 
国 加 州 大 学 欧文 分 校 。 虽 然 本 书 仅 使 用 了 这 其 中 的 不 到 10 个 数据 
集 ， 但 该 数据 库 已 经 提供 了 200 多 个 可 用 的 数据 集 。 其 中 很 多 数据 
党 被 用 来 比较 算法 的 性 能 ， 基 于 这 些 资源 ， 研 究 人 员 可 以 得 到 相对 
客观 的 性 能 比较 结果 。 





http://aws.amazon.com/publicdatasets/ 如 有 果 你 是 一 个 大 数据 的 爱 
好 者 ， 这 个 链接 尤其 不 能 错过 。Amazon 拥 有 真正 的 “大 ”数据 ， 包 
括 美 国人 口 普 查 数 据 、 人 类 基因 组 注释 的 数据 、 一 个 150 GB 的 日 志 
. Re 和 一 个 500 GB 的 数据 库 《〈 维 基 百 科 的 链接 
数据 ) 。 








http://www.data.gov 一 一 Data.gov 局 动 于 2009 年 ， 目 的 是 使 公众 可 以 
更 加 方便 地 访问 政府 的 数据 。 一 旦 政府 的 某 份 数据 可 以 公开 ， 他 们 
束 将 该 数据 发 布 。 到 2010 年 ， 该 网 站 束 已 经 拥有 了 250,000 个 数据 
集 。 但 网 站 还 能 活跃 多 久 尚 未 可 知 ， 因 为 2011 年 的 时 候 联 邦 政府 减 
少 了 对 电子 政府 (Electronic Govermnment Fund， 该 网 站 的 资金 来 
源 ) 的 基金 支持 。 访 网 站 提供 的 数据 主要 包含 一 些 被 召回 的 产品 和 
破产 的 银行 信息 等 。 








http://www.data.gov/opendatasites Data.gov 还 维持 了 一 个 包括 美 
人 城市 和 国家 等 网 站 在 内 的 超 链接 列表 ， 它 们 都 提供 类 似 的 开 
放 数 据 。 





http://www.infochimps.com/ Infochimps 是 一 个 公司 ， 公 司 目 标 
是 让 每 个 人 可 以 访问 世界 上 所 有 的 数据 集 ， 目 前 它 已 开放 了 14,000 
多 个 数据 集 的 下 载 。 与 本 列表 中 的 其 他 站 点 不 同 ，Infochimps 的 其 
中 一 些 数据 集 是 需要 购买 的 。 当 然 ， 你 也 可 以 在 该 网 站 上 出 售 自己 








的 数据 集 。 


e。 http:/www.datawrangling.com/some-datasets-available-on-the-web 
Data Wrangling 是 一 个 私人 的 博客 ， 提 供 了 网 络 上 大 量 数据 集 
的 链接 。 虽 然 许久 没有 更 新 ， 但 其 中 很 多 数据 集 仍 相当 不 错 。 


。 http://metaoptimize.com/qa/questions/ 该 站 点 并 不 提供 数据 资 
源 ， 而 是 一 问答 系统 的 站 皮 ， 重 点 关注 于 机 器 学 习 。 在 这 里 有 很 
多 高 手 乐意 伸 出 援手 、 帮 助 解答 问题 。 
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